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内 容 简 介 

本 书 全 面 系统 地 介绍 了 进化 算法 在 生物 多 序列 比 对 中 的 应 用 ， 根 据 内 容 的 
分 类 ， 分 为 “多 序列 比 对 基础 篇 ”“ 多 序列 比 对 模拟 篇 ”和 “多 序列 比 对 参数 
篇 ”三 个 模块 。 首 先 介绍 生物 多 序列 比 对 的 基础 知识 ， 包 括 多 序列 比 对 的 基本 
概念 、 原 理 、 方 法 、 常 用 数据 库 、 常 用 工具 和 应 用 等 内 容 ， 并 介绍 进化 算法 和 
最 优化 理论 的 基础 知识 ， 以 及 遗传 算法 、 粒 子 群 优化 算法 和 量子 粒子 群 优化 算 
法 的 优化 过 程 及 收敛 性 分 析 ， 为 进行 多 序列 比 对 的 模拟 提供 理论 基础 ， 然 后 详 
细 介 绍 各 进化 算法 模拟 多 序列 比 对 的 过 程 与 结果 ， 最 后 对 于 多 序列 比 对 最 重要 
的 目标 函数 参数 进行 建 模 与 分 析 。 本 书 具 有 系统 性 强 、 可 读 性 强 、 可 操作 性 强 
等 特点 。 
本 书 封面 贴 有 清华 大 学 出 版 社 防伪 标签 ， 无 标签 者 不 得 销售 。 
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随 看 人 关 基 因 组 计划 的 实施 和 科技 的 友 展 ， 生 物 学 数据 呈 和 类 炸 陈 
增长 ， 这 些 海 量 的 生物 学 数据 必须 通过 生物 信息 学 手段 进行 收集 、 分 
析 和 整理 后 ， 才 能 成 为 有 用 的 信息 。 而 如 何 有 效 分 机 和 处 理 这 些 大 
型 序列 数据 ( 即 序列 分 析 ) 成 为 生物 信息 学 的 首要 任务 。 序 列 比 对 是 
生物 序列 分 析 的 主要 方法 ， 也 是 生物 信息 学 中 挑战 性 的 问题 之 一 。 
友 列 比 对 在 序列 装配 、 序 列 注 释 、 基 因 和 重 日 质 的 结构 和 功能 预测 
以 及 系统 友 育 和 进化 分 析 等 方面 均 有 广汉 应 用 ， 因 此 对 它 的 研究 一 
了 且 以 来 部 是 热点 。 

进化 算法 是 一 关 值 鉴 生物 界 目 然 选择 和 目 然 跟 传 机 制 的 随机 搜 
索 算 法 , 主要 包括 遗传 算法 (genetic algorithm, GA), 遗传 规划 (genetic 
programming, GP). 4k R ig(evolutionary strategies, ES), HELIN 
划 (evolutionary programming, EP). Jw f FF Mè M (particle swarm 
optimization，PSO) 算 法 以 及 近年 出 现 的 量子 粒子 群 优 化 (quantum- 
behaved particle swarm optimization，QPSO) 算 法 ， 它 们 通过 一 系列 
的 进化 算 子 和 进化 方程 ， 寻 找 问 题 的 最 优 解 。 本 书 把 上 述 的 进化 算 
法 及 其 改进 的 进化 算法 ， 结 合 数学 模型 ， 用 于 解决 生物 多 序列 比 对 
问题 。 

全 书 正 文 各 章节 结构 如 下 网 所 示 ， 共 分 为 “多 序列 比 对 基础 扁 ” 
“多 序列 比 对 模拟 篇 ”和 “多 序列 比 对 参数 入” 三 个 模块 。 


E 进化 算法 在 生物 多 序列 比 对 中 的 应 用 o. 


第 1 章 生物 多 序列 比 对 
UE 进化 拭 法 和 最 优化 理论 


3 章 遗传 算法 、 粒 子 群 优化 算法 和 量子 粒子 群 优化 算法 


BASE 遗传 算法 在 多 序列 比 对 中 的 应 用 


第 6 章 基于 隐 马 尔 可 夫 模 型 和 QPSO 算 法 的 多 序列 比 对 


第 7 章 多 序列 比 对 的 并 行 计 入 


第 8 章 多 厅 列 比 对 的 参数 研究 


“多 序列 比 对 基础 篇 ”( 第 136—983 半 ) 介 绍 生 物 多 序列 比 对 的 
基础 知识 ， 包括 多 序列 比 对 的 基本 概念 、 原 理 、 方 法 、 常 用 数据 库 、 
常用 工具 和 应 用 等 内 容 ， 并 介绍 进化 算法 和 最 优化 理论 的 基础 知识 ， 
以 及 遗传 算法 、 粒 子 群 优化 算法 和 量子 粒子 群 优化 算法 的 优化 过 程 
及 收敛 性 分 析 ， 为 进行 多 序列 比 对 的 模拟 提供 理论 基础 。 

“多 序列 比 对 模拟 篇 ”( 第 4 草 一 第 7 章 ) 是 本 书 的 核心 部 分 ， 主 
要 内 容 概 括 如 下 : 

(1) 应 用 基本 遗传 算法 及 其 改进 的 遗传 算法 进行 多 序列 比 对 。 
基本 遗传 算法 (GA) 是 通过 对 进化 过 程 中 的 种 群 反复 进行 选择 、 交 叉 、 
变异 操作 来 模拟 卓然 界 中 种 群 的 演变 过 程 ， 直 到 满足 一 定性 能 要 求 
才 结 束 计 算 ， 它 本 喘 的 结构 决定 了 它 可 以 用 在 多 序列 比 对 上 。 踪 传 
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算法 可 以 有 效 地 解决 生物 多 序列 比 对 问题 ， 但 是 遗传 算法 高 度 依赖 
于 初始 种 和 群 ， 好 的 初始 种 群 方 可 以 得 到 好 的 结果 。 为 提 融 计 算 效 率 ， 
提高 比 对 质量 ， 可 从 壮 传 算法 最 关键 的 组 成 部 分 入 手 ， 通 过 优化 初 
始 种 群 的 质量 ， 达 到 改进 算法 的 目的 。 另 外 ， 又 针对 遗传 算法 最 基 
本 有 的 区 又 拭 子 ， 设 计 了 你 优 和 选择 混合 的 区 叉 操 作 后 处 理 方法 
cross4to2。 蒋 方法 不 但 服从 傈 优 蛛 则 ， 而 且 又 再 一 次 经 过 选择 操作 
的 精英 体 留 过 程 ， 使 得 最 优秀 的 个 体 进 入 下 一 代 。 这 种 处 理 将 算法 
的 整体 搜索 能 力 和 局 部 搜索 能 力 大 大 提高 。 通 过 与 经典 CLUSTAL 
算法 的 比较 ， 验 证 了 廊 算 法 的 有 效 性 。 

Q) 使 用 二 进 制 的 PSO 算法 和 二 进 制 的 QPSO 算法 进行 多 序列 
HEER. W foEbESS ELTAHJ XA, ERAP EIA I ERAT. H2 
对 群体 中 的 个 体 进 行 编码 ， 然 后 根据 目标 函数 值 ( 通 第 为 序列 的 得 分 
国 数 ) 找 出 至 位 的 最 优 位 置 ， 使 序列 比 对 的 结果 最 优 ， 确 定 序列 的 相 
似 性 以 全 于 同 源 性 。 

(3) 使 用 QPSO 算法 和 改进 的 QPSO 算法 ， 结 合 隐 马尔 可 夫 模 
型 (HMMD) 进 行 多 序列 的 比 对 。 这 主要 涉及 两 个 过 程 : 优化 过 程 和 比 
对 过 程 。 优 化 过 程 主要 研究 训 面 HMM 模型 参数 的 训练 过 程 ， 获 得 
AULEM. mim cete dU m yl zs e TAB irs au DA LAN JR) bec VL; 
此 研究 全 局 优化 算法 对 模型 进行 训练 极其 重要 。 用 并 行 的 群体 智能 
优化 算法 优化 训 面 HMM 时 ， 优 化 的 主要 对 象 是 转移 概 雍 和 人 符 扎 友 
出 概 认 ,优化 对 象 的 编外 方式 以 及 参数 的 个 数 将 会 影 啊 比 对 的 速度 ， 
优化 过 程 中 算法 的 全 局 收 合 性 将 会 影 啊 a 到 比 对 的 准确 度 。 比 对 过 程 
主要 人 研究 比 对 算法 的 实现 过 程 ， 获 得 比 对 结 霖 。 当 使 用 HMM 进行 
多 序列 比 对 时 ， 每 条 序列 从 开始 到 结束 通过 这 些 状态 罕 越 模型 ， 在 
这 些 待 比 对 序列 中 进行 至 位 字符 “一 ”的 插入 和 删除 操作 ， 得 到 一 
个 多 序列 比 对 结果 的 和 矩阵。 但 应 确 你 在 比 对 结果 中 有 尽 可 能 多 的 列 
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由 相同 的 非 空 字符 组 成 ， 同 时 在 由 不 同学 符 组 成 的 列 中 某 一 个 或 某 
儿 个 非 空 字符 的 数目 尽 可 能 多 , 以 便 发 现 不 同 序列 之 间 的 相似 部 分 ， 
进而 推断 它们 在 功能 和 结构 上 的 相似 性 。 

(4) 多 序列 比 对 的 并 行 计算 。 随 着 计算 机 科学 技术 在 第 三 代 测 
序 技术 以 及 基因 组 拼接 技术 方面 的 不 断 发 展 ， 生 物 信 息 领域 获得 了 
越 来 越 多 的 长 基因 组 序列 数据 ， 长 序列 比 对 成 为 急需 解决 的 问题 。 
传统 的 算法 对 内 存 空间 的 庞大 需求 以 及 漫长 的 运行 时 间 已 经 无 法 满 
足 对 这 种 大 规模 数据 的 处 理 ， 因 此 长 序列 比 对 的 并 行 计算 成 为 研究 
的 一 个 热点 问题 。 通 第 的 并 行 模 式 有 : 基于 “分 而 治之 ”策略 ， 结 
合并 行 计 算 的 长 序列 首尾 分 段 并 行 比 对 算法 ; 基于 “粗细 粒度 ”的 
并 行 数据 并 行 算法 。 

多 序列 比 对 是 生物 信息 学 的 一 个 重要 研究 内 容 ， 比 对 结果 高 度 
依赖 于 目标 函数 和 比 对 工具 的 参数 议 置 ,包括 宪 位 央 分 (GOP 和 GEP) 
以 及 蔡 换 和 矩阵。“ 多 序列 比 对 参数 篇 ”( 第 8 草 ) 主 要 做 了 两 方面 的 
工作 : 

(1) 研究 SP(sum-of-pair) H ERZI, 提出 确定 各 参数 最 优 僵 的 理 
论 依据 ， 给 出 奉 换 矩阵 判断 公式 和 最 佳 空 位 避 分 取 值 公式 ， 结 合 待 
测序 列 信息 得 出 与 之 相符 的 一 组 最 优 参数 ， 从 而 得 到 更 好 的 比 对 结 
果 。 通 过 与 精度 较 高 的 多 序列 比 对 工具 MAFFT、CLUSTALW 的 比 
较 ， 结 合 BAliBASE2.0 数据 库 进 行 实例 验证 ， 结 果 表 明 ， 根 据 公 式 
得 出 的 参数 可 以 得 到 比 默认 参数 更 优 的 比 对 结果 ， 而 且 本 书 公式 优 
化 了 多 序列 比 对 结果 ， 上 共有 可 行 性 和 高 效 性 。 

(2) 基于 BAHBASE3.0 效 据 库 , 应 用 MAFFT 工具 (MAFFT-7.220- 
WIN64 versiom) 进 行 多 序列 比 对 , 得 出 蔡 换 和 窍 阵 和 衬 位 如 分 的 最 优 参 
数组 合 ， 从 而 得 到 更 好 的 比 对 结果 。 实 验 结果 表明 ， 通 过 与 MAFFT 
(MAFFT-7.220-WIN64 version), CLUSTALW (CLUSTALW-2.1-WIN) 
VI 
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的 默认 参数 比较 ， 根 据 本 研究 得 出 的 最 优 参数 组 合 可 以 得 到 比 默认 
参数 更 优 的 比 对 结果 ， 而 且 人 研究 结果 给 出 的 最 优 参 数组 合 优化 了 多 
序列 比 对 结果 。 

本 书 是 由 多 人 编撰 完成 的 ， 编 写 分 工 如 下 : 第 5 X8. 98 6 半 和 附 
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完成 ， 共 计 8.5 万 字 ; 第 2 章 和 第 3 章 由 付 海 艳 编撰 完成 ， 共 计 8.5 
万 衬 。 全 书 由 龙 海 侠 和 孚 满 术 统 稿 和 修改 。 本 书 的 出 版 获 海 前 师 邯 
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多 序列 比 对 基础 篇 


第 1 章 生物 多 序列 比 对 


1.1 生物 信息 学 


1.1.1 生物 信息 学 的 起 源 


HAM 1990 年 美国 启动 人 类 基因 组 计划 以 来 , 人 与 模式 生物 基因 
组 的 测序 工作 进展 极为 迅速 。 迄 今 已 完成 了 约 40 多 种 生物 的 全 基因 
组 测序 工作 ， 人 基因 组 约 3X10 个 碱 基 对 的 测序 工作 也 接近 完成 。 
全 2000 年 6 月 26 日 ， 被 党 为 生命 “阿波 罗 计 划 ” 的 人 类 基因 组 计 
划 ， 经 过 美 、 英 、 日 、 法 、 德 和 中 国 科 学 家 的 艰苦 努力 ， 终 于 完成 
了 工作 草图 ， 这 是 人 类 科学 史上 又 一 个 里 程 碑 式 的 事件 ， 它 预示 着 
完成 人 类 基因 组 计划 已 经 指日可待 。 截 至 目前 , 仅 登 录 在 美国 GenBank 
数据 库 中 的 DNA 序列 总 量 已 超过 70 亿 个 碱 基 对 。 在 人 类 基因 组 计 
划 进 行 过 程 中 所 积累 起 来 的 技术 和 经 验 ， 使 得 其 他 生物 基因 组 的 测 
序 工作 可 以 完成 得 更 快捷 。 可 以 预计 ， 今 后 DNA 序列 数据 的 增长 
将 更 为 怀 人 。 生 物 学 数据 的 积累 并 不 仅仅 表现 在 DNA. 序列 方面 ， 
与 其 同步 的 还 有 和 集 白 质 的 一 级 结构 ， 即 氨基 酸 序列 的 增长 。 此 外 ， 
运 今 为 止 , BA 10000 多 种 入 晶 质 的 空间 结构 以 不 同 的 分 辩 率 被 测 
定 。 基 于 cDNA 序列 测序 所 建立 起 来 的 EST 数据库， 其 记录 已 达 数 
ANZ. 在 这 些 数据 基础 上 派生 、 整 理 出 来 的 数据 库 已 达 500 RA. 
这 一 切 构成 了 一 个 生物 学 数据 的 海洋 。 可 以 打 一 个 比方 来 说 明 这 些 
数据 的 规模 。 有 人 人 估计， 人 类 (包括 已 经 去 世 的 和 仍然 在 世 的) 所 说 
过 的 话 的 信息 总 量 约 为 5SEB(1EB=10”B), 而 如 今生 物 学 数据 信息 总 
量 已 接近 甚至 超过 此 数量 级 。 这 种 科学 数据 的 急速 和 海量 积累 ， 在 


E 上 篇 多 序列 比 对 基础 篇 ， 


人 类 的 科学 研究 历史 中 是 空前 的 。 

数据 并 不 等 于 信息 和 知识 ， 但 却 是 信息 和 知识 的 源泉 ， 关 键 在 
于 如 何 挖 据 它 们 。 与 正在 以 指数 方式 增长 的 生物 学 数据 相 比 ， 人 类 
相关 知识 的 增长 (粗略 地 用 每 年 发 表 的 生物 、 医 学 论文 数 来 代表 ) 却 
十 分 缓慢 。 一 方面 是 巨 量 的 数据 ， 另 一 方面 是 我 们 在 医学 、 药 物 、 
农业 和 环保 等 方面 对 新 知识 的 渴求 ， 这 些 新 知识 将 帮助 人 们 改善 其 
生存 环境 和 提高 生活 质量 。 这 就 构成 了 一 个 极 大 的 矛盾 。 这 个 矛盾 
就 催生 了 一 门 新 兴 的 交叉 科学 ， 这 就 是 生物 信息 学 。 


1.1.2 生物 信息 学 的 概念 


天 国人 类 基因 组 计划 实施 五 年 后 的 妃 结 报告 中 ， 对 生物 信息 学 
做 了 以 下 定义 : 生物 信息 学 是 一 门 交 义 科 学 ， 它 包含 了 生物 信息 的 
获取 、 人 处理、 存储、 分 发 、 分 析 和 人 解释 等 在 内 的 所 有 方面 ， 它 综合 
运用 数学 、 计 算 机 科学 和 生物 学 的 各 种 工具 ， 来 站 明和 理解 大 量 数 
据 所 包含 的 生物 学 音义 。 生 物 信息 学 这 一 名 词 的 出 现 仅仅 是 儿 年 前 
的 事情 ， 但 是 计算 生物 学 这 一 名 词 的 出 现 要 早 得 多 。 鉴 于 这 两 门 学 
科 之 间 并 没有 或 难以 界定 严格 的 分 界线 , 在 这 里 统称 为 生物 信息 学 。 
它 是 当今 生命 科学 和 目 然 科 学 的 重大 前 沿 领域 乙 一 , 同时 也 是 21 世 
纪 目 然 科 学 的 核心 领域 之 一 。 其 研究 妖 点 主要 体现 在 基因 组 学 
(genomics) 和 集 日 组 学 (proteomics) 册 方面 , 其 体 说 束 是 从 核酸 和 重 日 
质 序列 出 发 ， 分 析 序 列 中 表达 的 结构 功能 的 生物 信息 。 


1.1.3 生物 信息 学 的 主要 研究 内 容 


生物 信息 等 主要 包括 以 下 几 个 主要 人 研究 领域 ,但 是 限于 局 幅 ， 
这 里 仅 列 出 其 名 称 并 只 做 简单 介绍 。 

1. 序列 比 对 (alignment) 

基本 问题 是 比较 两 个 或 两 个 以 上 符号 序列 的 相似 性 或 不 相似 性 。 


, $1E 生物 多 序列 比 对 WM 


序列 比 对 是 生物 信息 学 的 基础 ， 非 党 重要 。 两 个 序列 的 比 对 有 较 成 熬 
的 动态 规划 算法 ， 以 及 在 此 基础 上 编写 的 比 对 软件 包 一 一 BLAST 和 
FASTA, 可 以 免费 下 载 使 用 。 这 些 软 件 在 数据 库 查 询 和 搜索 中 有 重要 
的 应 用 。 有 时 两 个 序列 总 体 并 不 很 相似 , 但 某 些 局 部 片断 相似 性 很 融 。 
Smith-Waterman 算法 是 解 次 局 部 比 对 的 好 算法 ， 缺 点 是 速度 较 慢 。 岗 
个 以 上 序列 的 多 重 序 列 比 对 目前 还 缺乏 快速 而 又 十 分 有 效 的 算法 。 


2. RARIK bež 


和 抹 日 质 三 级 结构 比 对 十 生物 信息 等 的 重要 研究 领域 。 集 日 质 的 
功能 由 集 日 质 的 三 级 结构 次 定 ， 抹 日 质 三 维 空间 结构 的 相似 性 比较 
挟 分 析 集 日 质 结 构 和 功能 的 重要 手段 ， 因 此 比较 和 集 日 质 的 三 级 结构 
可 以 了 解 它 们 之 加 的 相互 作用 和 进化 关系 。 

人 研究 千 日 质 的 结构 意义 重大 ， 分 析 集 日 质 络 构 、 功 能 及 其 关系 
挟 集 日 质 组 计划 中 的 一 个 重要 组 成 部 分 。 研 究 和 集 日 质 结 构 有 助 于 了 
解 焦 日 质 的 功能 ， 了 解 和 集 日 质 如 何 行 使 其 生物 功能 ， 认 识 梨 日 质 己 
和 皇 日 质 或 其 他 分 于 之 间 的 相互 作用 ， 这 无 论 征 对 于 生物 学 还 是 对 于 
医学 和 区 学 者 征 非 澡 重 要 的 。 对 于 未 知 功能 或 者 新 友 现 的 集 日 质 分 
子 ， 退 过 结构 分 析 可 以 进行 功能 注释 、 指 于 议 计 进行 功能 人 确认 的 生 
物 学 实验 。 通 过 分 析 和 集 日 质 的 结构 确认 功能 单位 或 者 结构 域 ， 可 以 
为 遗传 操作 提供 目标 ， 为 设计 独 的 重 日 质 或 改 霹 已 有 和 集 日 质 近 供 可 
ERKA AAT V VE DC EEHJ T 9814. 


3. FAA Jun SELON 


从 方法 上 来 看 ， 有 演绎 法 和 归纳 法 两 种 途径 。 前 者 主要 是 从 一 
些 基 本 原理 或 假设 出 发 来 预测 和 研究 重 白 质 的 结构 和 折 针 过 程 ， 分 
子 力学 和 分 子 动力 学 属 这 一 沁 畴 。 后 者 主要 是 从 观察 和 总 结 已 知 结 
构 时 重 日 质 结 构 规 律 出 发 来 了 预测 未 知 重 日 质 的 结构 ， 同 源 模 建 和 指 
W (threading TEJE FAX. BAAN 30 RERS J, EAM 
结构 了 预测 研究 现状 还 远 远 不 能 满足 实际 需要 。 
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4. 计算 机 辅助 基因 识别 ( 仅 指 香 日 质 编码 基因 ) 


基本 问题 是 给 定 基 因 组 序列 后 ， 正 确 识别 基因 的 范围 和 在 基 
组 序列 中 的 精确 位 置 。 这 是 最 重要 的 课题 之 一 ， 而 且 越 来 越 重 要 。 
经 过 20 余年 的 努力 ， 提 出 了 数 十 种 算法 ， 有 10 种 左右 重要 的 算法 
和 相应 软件 (网 上 提供 免费 服务 )。 原 核 生 物 计 算 机 辅助 基因 识别 相 
对 容易 些 ， 结 果 好 一 些 。 从 具有 较 多 内 仿 子 的 丰 核 生物 基因 组 序列 
中 正确 识别 出 起 始 密码 子 、 剪 切 位 点 和 终止 密码 子 ， 是 一 个 相当 困 
难 的 问题 ， 研 究 现状 不 能 令 人 满意 ， 仍 有 大 量 的 工作 要 做 。 

5. 非 编 码 区 分 析 和 DNA 语言 研究 

在 人 类 基因 组 中 ， 编 码 部 分 只 占 总 序列 的 390—596, Hh 
常 称 为 “垃圾 ”DNA， 其 实 一 点 也 不 是 “垃圾 ”， 只 是 暂时 还 不 
知道 其 重要 的 功能 ,分 析 非 编码 区 DNA 序列 需要 大 胆 的 想象 与 守 
新 的 研究 思路 和 方法 。DNA 厅 列 作为 一 种 遗传 语言, MARNE 
编码 序列 之 中 ， 而 且 隐 含 在 非 编 码 序 列 之 中 。 

6. 分子 进 化 和 比较 基因 组 学 


时 期 的 工作 主要 是 利用 不 同 物种 中 同一 种 基因 序列 的 并 同 来 研 
完 生 物 的 进化 ， 构 建 进化 树 。 既 可 以 用 DNA 序列 也 可 以 用 其 编码 的 
才 基 酸 序列 来 做 ， 甚 至 可 通过 相关 和 焦 白 质 的 结构 比 对 来 研究 分 子 进 
化 。 以 上 研究 已 经 积累 了 大 量 的 工作 。 近 年 来 由 于 较 多 模式 生物 基 
组 测序 任务 的 完成 , 为 从 整个 基因 组 的 角度 来 研究 分 子 进化 提供 了 条 
件 。 可 以 议 力 ， 比 较 两 个 或 多 个 完整 茶 因 组 这 一 工作 再 要 新 的 思路 和 
方法 ， 当 然 也 汐 望 得 到 蝎 丰 倾 的 成 末 。 这 方面 可 做 的 工作 是 很 多 的 。 


T. Fe5J 88 Z 4 (contigs) A Rc 


一 般 来 说 ， 根 据 现行 的 测序 技术 ， 每 次 反应 只 能 测 出 500 个 
或 更 多 一 些 碱 基 对 的 序列 ， 这 残 有 一 个 把 大 量 的 较 短 的 序列 全 体 
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KJ ERBE. XXe 1 ROE KE WEE FUSS EB) EHE, H2 
FFR ERTI, AEA. HF EST 数据 以 友 现 全 
长 新 基因 也 有 类 似 的 问题 。 已 经 证 明 ， 这 是 一 个 NP 完备 性 算法 
问题 。 

8. 遗传 客 码 的 起 源 


遗传 密码 为 什么 是 现在 这 样 的 ?这 一 直 是 一 个 主 。 一 种 最 简单 
的 理论 认为 ， 密 但 子 与 宽 基 酸 之 加 的 关系 是 生物 进化 历史 上 一 次 休 
然 的 事件 霹 成 的 ， 并 航 回 定 在 现代 生物 最 后 的 共同 租 匈 里 ， 一 二 延 
续 人 至 今 。 不 同 于 这 种 “ 旋 结 ” 理 论 ， 有 人 曾 分 别 捉 出 过 选择 优化 、 
化 学 和 历史 等 三 种 学 说 来 解释 遗传 密 但 。 随 者 各 种 生物 基因 组 名 施 
任务 的 完成 ， 为 研究 遗传 密码 的 起 源 和 检验 上 述 理论 的 大 伪 提供 了 
ATH RT o 


9. 基于 结构 的 药物 攻 计 


人 类 基因 组 计划 的 目的 之 一 在 于 曾 明 人 的 约 10 万 种 重 日 质 的 结 
构 、 功 能 、 相 互 作用 以 及 与 各 种 人 类 疾病 之 间 的 关系， 寻求 各 种 治疗 
和 预防 方法 ， 包 括 药 物 治疗 。 基 于 生物 大 分 子 结 构 的 药物 设计 是 生物 
信息 学 中 的 极为 重要 的 研究 领域 。 为 了 抑制 菜 些 酶 或 重 晶 质 的 活性 ， 
在 已 知 其 三 级 结构 的 基础 上 ， 可 以 利用 分 子 对 接 算法 ,在 计算 机 上 设 
计 抑 制剂 分 子 ， 作 为 候选 药物 。 这 种 发 现 新 药物 的 方法 有 强大 的 生命 
力 ， 也 有 着 巨大 的 经 济 效益 。 

10. 代谢 网 络 的 分 析 

代谢 网 络 涉及 生化 反应 途 人 符 、 基 因 调 探 及 信号 转 导 过 程 ( 重 日 质 
则 的 作用 ) 和 等 。 后 基因 组 时 代 将 研究 大 规模 网 络 的 生命 过 程 ， 称 为 
“网 络 生物 和 学” 研究。 与 代谢 分 析 百 接 相 关 的 便 是 系统 生物 学 研究 ， 
它 将 是 后 基因 组 时 代 最 为 突出 的 研究 方 问 。 


E 上 篇 多 序列 比 对 基础 篇 ， 


11. 其 他 


如 基因 表达 谱 分 析 、 基 因 芯 片 设计 和 蛋白 质 组 学 数据 分 析 等 
逐渐 成 为 生物 信息 学 中 新 兴 的 重要 研究 领域 。 


1.2 序列 比 对 的 概 倍 及 其 发 展 历 史 


1.2.1 f PL ELS E ie HH 55 ES REUS 


随 着 人 类 基因 组 计划 的 实施 和 科技 的 发 展 ， 生 物 学 数据 呈 焊 炸 
式 增 长 , 这 些 海量 的 生物 学 数据 必须 通过 生物 信息 学 手段 进行 收集 、 
分 析 和 整理 后 ， 才 能 成 为 有 用 的 信息 。 而 如 何 有 效 分 析 和 处 理 这 些 
大 型 序列 数据 ( 即 序列 分 析 ) 成 为 生物 信息 学 的 首要 任务 。 订 列 比 对 
是 生物 序列 分 析 的 主要 方法 , 也 是 生物 信息 学 中 挑战 性 的 问题 之 一 。 
序列 比 对 在 序列 装配 、 序 列 注释 、 基 因 和 蛋白质 的 结构 和 功能 预测 
以 及 系统 发 育 和 进化 分 析 等 方面 均 有 广泛 应 用 ， 因 此 对 它 的 研究 一 
百 以 来 都 是 热点 。 

序列 比 对 就 是 在 两 个 或 更 多 序列 的 相同 区 域 寻 找 最 大 相似 性 
的 任务 ， 其 基本 思想 是 找 出 检测 序列 和 目标 序列 的 相似 性 。 比 对 过 
程 中 需要 在 待 比 对 序列 中 引入 衬 位 ， 以 表示 插入 或 删除 。 根 据 需 要 
比 对 的 序列 个 数 ， 序 列 比 对 分 为 双 序 列 比 对 和 多 序列 比 对 。 

序列 比 对 问题 瓯 是 通过 回 符 测序 列 中 插入 衬 格 ， 使 得 每 条 订 列 
的 长 度 一 样 ， 并 尽 可 能 保证 每 列 的 字符 具有 最 大 的 相似 性 。 随 独 参 
与 比 对 序列 的 条 数 增 加 ， 比 对 的 难度 及 复杂 度 急剧 增加 。 


1.2.2 序列 比 对 的 目的 和 意义 


当 所 考察 的 序列 不 同时 ， 保 守 的 残 基 往 往 是 维持 稳定 结构 或 生 
物 学 功能 的 关键 残 其 。 多 序列 比 对 可 以 揭示 关于 重 日 质 结构 和 功能 
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的 许多 线索 。 

序列 比 对 的 目的 是 发 现 相似 的 序列 ， 得 到 保守 的 区 域 ， 寻 找 友 
列 之 间 的 功能 、 结 构 或 进化 上 的 关系 。 

订 列 比 对 的 意义 如 下 : 

(1) 用 于 描述 一 组 序列 之 间 的 相似 性 关系 ， 以 便 了 解 一 个 基因 
家 族 的 基本 特征 ， 寻 找 motif FKE. 

(2) 用 于 拍 述 一 个 同 源 基因 之 间 的 亲缘 关系 的 远近 ， 应 用 到 分 
子 进 化 分 析 中 。 

(3) 定量 估计 序列 间 的 关系 ， 并 由 此 推断 它们 在 进化 中 的 基 
绿 天 系 ， 可 以 通过 计算 完全 匹配 的 残 基数 目 或 计算 完全 匹配 残 基 
和 相似 残 基 的 数目 得 到 这 种 定量 关系 。 充 方法 还 可 以 用 来 评估 比 

(4) 对 于 系统 友 育 ， 相 等 的 残 基 相 当 于 有 共有 共同 的 进化 祖先 ; 
对 于 结构 生物 和 学， 相等 的 残 基 与 一 组 和 焦 日 质 中 辐 源 折 千 的 类 似 位 蜀 
IHR; 对 于 分 子 生 物 学 ， 相 等 的 残 基 在 其 相应 的 重 日 质 有 同类 功能 
作用 。 在 每 一 种 情况 下 ， 比 对 提供 了 潜在 的 演 化、 结构 ， 或 简洁 和 直 
观 地 表达 和 焦 日 质 家 族 功 能 限制 表征 的 乌 虞 视图 。 

(S) 如 来 是 对 多 个 和 集 日 质 或 核酸 同时 进行 比较 分 析 ， 束 有 可 能 
寻找 到 这 些 有 进化 关系 的 序列 之 间 共 同 的 保守 区 域 、 位 点 和 profile, 
从 而 残 能 够 探索 到 导致 它们 产生 共同 功能 的 序列 模式 。 

(6) 订 列 比 对 在 预测 和 治疗 疾病 方面 有 看 非常 重要 的 应 用 ， 如 
白血病 。 大 量 的 试验 数据 和 临床 数据 表明 ，DNA 厅 列 中 包含 的 一 些 
EKAR T AMIK. Wh REA FERAT MNE KAA 
表达 造成 。 于 是 可 以 通过 比 对 一 些 检验 者 的 DNA 厅 列 数据 和 霖 些 
特殊 的 序列 数据 ， 之 后 通过 比 对 结果 残 可 以 从 检验 者 DNA 厅 列 数 
据 中 找 出 其 有 生物 意义 的 符 征 ， 从 而 提供 一 些 有 价值 的 信息 ， 这 些 
信息 为 诊断 日 血 病 提 供 了 一 定 的 依据 ， 从 而 对 日 血 病 的 治疗 方面 所 
供 一 些 指 守 性 的 作用 。 


9 
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1.2.3 国内 外 研究 现状 


多 序列 比 对 (multiple sequence alienment，MSA) 问 题 是 生物 信息 
学 中 一 个 尚未 解决 的 问题 ， 仆 列 为 一 个 NP 完全 的 组 合 优化 问题 ， 
想 要 找到 复杂 性 为 多 项 式 的 精确 算法 是 不 可 能 的 。 多 序列 比 对 是 生 
物 序 列 分 析 的 主要 方法 ， 也 是 生物 信息 学 中 挑战 性 的 问题 之 一 ， 
Chuong B, Do 和 Katoh K(2008) 在 文中 引用 258 个 文献 对 多 序列 比 对 
做 了 非常 全 面 的 综述 ， 根 据 多 序列 比 对 的 研究 现状 得 出 结论 : 虽然 
多 序列 比 对 问题 已 经 研究 了 儿 十 年 ， 但 是 多 序列 比 对 的 研究 一 直达 
劲 友 展 ， 每 一 年 国内 外 都 有 数 十 个 摘 述 多 序列 比 对 新 方法 的 文 草 友 
表 [ 如 McClure M A, et al.(1994), JD Notredame C(2002), Julie D. 
Thompson(2005), Chuong B Do, et al.(2008), C Kemena, et al.(2009), 
Orobitg Miquel, et a1.(2013), sKJllBUii&zE £r. H(2005), EZ TE 
(2006), ILER P 3:0010)]. YF s3RIPHUEoUAEH], TET EON 
HERE IE RU EEOGT EHE v Fe] v] 7 ETE 2 ARR RE, HEZ 
方面 仍 有 很 大 的 肥 展 空间 。 


1.2.4 多 序列 比 对 面临 的 挑战 


同 源 性 分 析 中 第 币 要 通过 多 序列 比 对 来 找 出 序列 之 间 的 相互 天 
系 。 和 BLAST 的 局 部 匹配 搜索 不 同 ， 多 序列 比 对 大 多 采用 全 局 比 
对 的 和 法。 这样 对 于 采用 计算 机 程序 的 目 动 多 序列 比 对 是 一 个 非 向 
复杂 且 耗 时 的 过 程 ， 特 别 是 序列 数目 多 且 序 列 长 的 情况 下 。 

多 序列 比 对 是 一 个 NP 完全 问题 ， 解 决 此 问题 的 传统 得法 是 渐 
进 算法 或 迭代 算法 ， 但 是 随 看 序列 长 度 和 条 数 的 增多 ， 时 罕 复杂 性 
意 剧 上 升 ， 设 计 一 个 具有 高 敏感 性 、 高 精度 且 低 复杂 度 的 复 法 ， 成 
为 解决 生物 多 序列 比 对 的 瓶 锋 问题 。 
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1.3 多 厅 列 比 对 的 基本 原理 


1.3.1 多 厅 列 比 对 的 相关 概念 


数据 库 搜索 的 基础 是 序列 的 相似 性 比 对 ， 而 寻找 同 源 序列 则 是 
数据 库 搜索 的 主要 目的 之 一 。 在 序列 比 对 中 需要 注意 区 分 以 下 儿 个 


1. 相似 性 、 同 源 性 


相似 性 (similarity) 是 指 序 列 比 对 过 程 中 用 来 描述 检测 序列 和 目 
标 序 列 之 间 相 同 DNA 碱 基 或 氨基 酸 残 基 顺 序 所 占 比例 的 蝇 低 。 例 
如 ，A 序列 和 B 序列 的 相似 性 是 80%， 这 是 个 量化 的 关系 。 

同 源 性 (homology) 是 指 从 一 些 数 据 中 推 类 出 的 两 个 基因 或 捍 白 
质 序列 具有 共同 祖先 的 结论 。 例 如 ，A 序列 和 B 序列 只 有 是 同 源 序 
列 或 非 同 源 序列 两 种 关系 ， 属 于 质 的 判断 。 

相似 性 和 同 源 性 是 两 个 完全 不 同 的 概念 。 序 列 之 间 的 相似 程度 
是 可 以 量化 的 参数 ， 而 序列 是 否 同 源 则 需要 有 进化 事实 的 验证 。 任 
何 序列 之 间 均 存在 相似 ， 只 有 当 序 列 是 从 一 个 共同 祖先 进化 分 歧 而 
来 的 ， 它 们 才 是 同 源 的 。 因 此 ， 相 似 的 序列 有 可 能 同 源 ， 同 源 的 序 
列 也 常常 具有 相似 的 生物 学 功能 ， 但 基因 复制 机 制 义 使 得 同 源 序列 
进化 出 不 同 的 功能 。 一 般 来 说 ， 友 列 间 的 相似 性 越 蜗 ， 它 们 是 同 源 
序列 的 可 能 性 就 越 大 ， 当 相似 度 高 于 50% 时 ， 比 较 容 易 推 测 检 测序 
列 和 目标 序列 可 能 是 同 源 序列 ; 而 当 相 似 度 低 于 20% 时 ， 就 难以 确 
定 或 者 根本 无 法 确定 其 是 否 上 共有 同 源 性 ， 所 以 常常 通过 序列 的 相似 
性 来 推测 序列 是 否 同 源 。 

(1) 序列 相似 性 比较 : 将 待 测序 列 与 DNA. 或 重 白质 序列 库 进 
行 比较 ， 用 于 确定 该 序列 的 生物 属性 ， 也 就 是 找 出 与 此 序列 相似 
的 已 知 序列 是 什么 。 完 成 这 一 工作 只 需要 使 用 两 两 序列 比较 算法 ， 
常用 的 程序 包括 BLAST, FASTA 等 。 
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D 序列 同 源 性 分 析 : 将 行 测 序列 加 入 到 一 组 与 乙 同 源 但 来 目 不 
同 物种 的 序列 中 进行 多 序列 同时 比较 ,以 确定 该 序列 与 其 他 序列 间 的 
同 源 性 大 小 。 这 生理 论 分 析 廊 法 中 最 天 键 的 一 步 。 完 成 这 一 工作 必须 
使 用 多 序列 比 对 复 法 ， 钊 用 的 程序 包括 Clustal. MAFFT 等 。 


2. Bs. [sis 


在 考虑 序列 相似 性 时 ， 还 必须 认识 另外 两 个 概念 : 直系 同 源 
(ortholog) 和 旁 系 同 源 (paralog)。 分 子 进化 不 仅 使 不 同 的 物种 发 生 差 
异 ， 在 某 个 物种 的 基因 组 内 部 也 可 能 发 生 进 化 事件 。 来 目 共同 祖先 
的 基因 成 为 同 源 基 因 。 

百 系 同 源 基 因 是 指 在 不 同 物种 中 有 相同 功能 的 同 源 基因 ， 它 是 
在 物种 形成 过 程 中 形成 的 。 劳 系 同 源 基因 是 指 一 个 物种 内 的 同 源 基 
因 。 一 般 情况 下 ， 一 个 生物 物种 的 基因 组 中 ， 两 个 基因 或 可 读 框 在 
各 日 全 长 的 GAL EWA, 同一 性 不 少 于 30% 时 , 称 为 同 源 基因 。 
研究 直系 同 源 基 因 之 间或 旁 系 同 源 基因 之 间 的 功能 关系 ， 可 以 为 基 
因 组 分 析 提 供 很 大 的 帮助 。 直 系 同 源 基 因由 共同 的 祖先 演化 而 来 ， 
从 而 具有 订 列 相似 性 。 而 劳 系 同 源 是 种 内 基因 倍增 的 结果 。 当 厅 列 
相似 性 高 时 ， 直 系 同 产 可 以 暗示 功能 性 同 源 ， 而 劳 系 同 源 一 般 会 有 
相似 但 并 不 相同 的 功能 。 


1.3.2 序列 比 对 的 分 类 
1. 按 比 对 的 序列 数量 可 分 为 双 序列 比 对 和 多 序列 比 对 


双 序 列 比 对 恕 是 对 两 条 序列 进行 比 对 , 通过 比较 两 个 序列 之 间 的 
相似 区 域 和 保守 性 位 点 ， 寻 找 二 者 可 能 的 分 子 进 化 关系 。 双 序列 比 对 
是 序列 分 析 的 基础 。 然 而 ， 对 于 构成 基因 家 族 的 成 组 的 序列 来 说 ， 要 
建立 多 个 序列 之 则 的 关系 ， 这 样 才能 揭示 整个 基因 家 族 的 特征 。 

多 序列 比 对 束 是 对 三 条 及 以 上 的 序列 进行 比 对 。 多 序列 比 对 可 用 
来 区 分 一 组 序列 之 间 的 差异 , 但 主要 是 用 来 拍 述 一 组 序列 之 间 的 相似 
12 
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性 关系 ， 以 便 对 一 个 基因 家 族 的 特征 有 一 个 简明 皂 要 的 了 解 ， 在 阐明 
一 组 相关 序列 的 重要 生物 学 模 陈 方面 起 者 相当 重要 的 作用 。 


2. 按 比 对 的 序列 长 度 可 分 为 短 友 列 比 对 和 长 序列 比 对 


序列 长 度 单位 通 第 定义 为 bp， 一 般 规 定 长 度 不 超过 100bp I] 
列 为 短 序列 ， 超 过 100bp 的 序列 为 长 序列 。 不 同类 型 的 测序 数据 适 
用 于 特定 的 实验 应 用 领域 : 近似 100bp 长 的 双 末 端 序列 适合 重 测序 
研究 ;染色 质 免 疫 沉 深 测序 用 于 研究 转录 因子 结合 位 点 和 组 得 白 修 
饰 位 点 ， 其 序列 长 度 不 超过 50—75bp; 对 于 基因 组 序列 未 知 的 物种 
测序 ， 短 序列 组 闻 通 第 是 最 基本 的 分 析 步 又 ， 通 过 将 短 序 列 定 位 到 
参照 基因 组 序列 上 进行 后 续 分 析 。 长 序列 比 对 对 于 特定 基因 组 学 问 
题 来 讲 仍 然 是 非常 有 音义 的 ， 例 如 基因 组 较 大 的 物种 基因 组 序列 从 
头 组 装 、 重 测序 和 结构 变异 检测 等 ， 目 前 也 已 经 有 很 多 小 组 基于 
PacBio 的 测序 数据 开展 了 一 些 相关 研究 并 取得 了 非常 好 的 效果 。 


3. 按 比 对 的 序列 沁 围 可 分 为 全 局 比 对 和 局 部 比 对 


全 局 比 对 考虑 序列 的 全 局 相似 性 ， 是 对 给 定 序 列 全 长 进行 比较 
的 方式 。 运 用 全 局 比 对 的 主要 优势 是 对 具有 高 度 同 源 性 的 序列 进行 
优化 ， 这 在 以 已 知 三 维 结构 的 同 源 性 序列 为 基础 对 未 知 序列 的 三 维 
结构 进行 预测 的 模型 构建 过 程 中 征 很 有 用 的 。 

局 部 比 对 考虑 序列 片段 之 间 的 相似 性 ， 仅 能 获得 特定 序列 在 数 
据 库 中 配对 好 的 亚 区 。 局 部 比 对 运 合 于 那些 在 全 长 中 具有 局 部 的 小 
同 源 性 片段 的 序列 比较 ， 一 般 用 于 特定 序列 位 点 、 结 构 域 及 其 他 类 
型 重复 序列 的 搜索 ， 同 时 在 及 现 数据 库 中 竺 分 析 序 列 的 同 源 序列 过 
程 中 也 有 共有 重要 意义 。 


1.3.3 多 序列 比 对 的 数学 定义 
一 条 长 度 为 了 的 序列 是 了 个 字符 组 成 的 字符 串 ， 字 符 取 目 于 字 
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de Y: - £4, G, C, TY. SANE DNA 的 四 个 核 苷 酸 类 型 。 对 于 DNA 
序列 ， 给 定 包含 N 个 序列 的 序列 集 8= {SSS} N22, 
S, =S Sa S (i 和 N)，S,e 区 (三 j 志 1), 4 是 第 i 条 序列 的 长 
度 ， 则 一 个 序列 比 对 可 定义 为 一 个 矩阵 4=(a,), 其 中 
IX; NIE j€l,max) 1 V1. WE 1.1 所 示 。 和 矩阵 必须 
满足 下 列 三 个 条 件 : = 

(D a,e EUH Hp *—" RER. 

Q) EMEP TAM” J BISHER S,. 

(3) EERDER TII EETA. 


mE 2 4 7 8 9 IU ll 12 13 14 


6 

A 
A 
I 
I 


3 
G 
G 
' G 
G 
G 
G 


A 


图 1.1 多 序列 比 对 


订 列 分 析 的 目的 是 揭示 核 苷 酸 或 妥 基 酸 序列 编 但 的 高 级 结构 或 
功能 信息 ， 而 序列 比 对 打分 的 目的 则 是 捉 供 一 个 比较 两 (多 ) 序 列 之 
由 相似 性 的 量度 ， 从 而 使 人 们 有 可 能 迅速 区 分 有 看 微妙 不 同 的 任意 
两 个 序列 的 比 对 结 采 。 币 匈 的 打分 标准 有 以 下 几 种 。 


1. 目标 函数 


目标 函数 是 用 来 若 咎 多 序列 比 对 结果 好 坏 的 一 种 度量 标准 ， 所 
有 的 多 序列 比 对 方法 都 依赖 于 一 个 目标 函数 来 说 明 比 对 结果 的 好 
坏 ， 从 而 反 遇 出 此 方法 的 精确 度 和 有 效 性 。 当 前 有 三 种 主流 的 目标 
KZ: EEX) A p ZI (sum-of-pairs fonctions)。 一 致 性 图 数 (consensus 
14 
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functions) IT EK Zt (tree fanctions)， 有 其 中 使 用 最 普 遇 的 是 比 对 和 函数 
(HIRI SP PEZ). SP 困 数 再 要 设置 两 个 重要 的 参数 : 蔡 换 矩阵 
(substitution matrix) l^* 4 ij; (gap penalties, HP Eri TAM iN 
分 和 延续 空位 前 分 )。 
sum-of-pair(SP) A Zt HJ vr S A 3X 25 n H score= X residue 一 
» penalty 表示 。 其 中 ，score 定义 为 正 数 ， 分 值 越 高 ， 比 对 效果 越 
tf; 》 residue 是 比 对 后 的 重 白 质 序列 中 氨基 酸 残 基 的 总 分 ， 定义 为 
X residue» 0 ; X penalty 是 插入 空格 产生 的 总 加 分 ， 定 义 为 
» penalty >Q . 
氨基 酸 残 基 的 总 分 公式 为 
X residue = = Y 3 cost(S, , n) 
式 中 : 
S a = score(a,a) A AR A T dE rV ASH EULA) ; 
cOSI(S, Sn) 2 4 Sap = score(a, b) TR PA AI AES E B(A UU RO) ; 
S —score(a,-) -0 REB TEMNA ACEM ATE) o 
式 中 : L 为 比 对 序列 长 度 ; m 为 参加 比 对 的 序列 条 数 ; 5; 为 第 i 条 
厅 列 第 有 个 残 基 。[ 区 配 和 不 匹配 的 分 数 通 常 由 巷 换 计 分 矩阵 给 出 。 


2. BIRIT IAE BE 


对 于 很 白质 序列 ， 计 分 矩阵 主要 用 于 记录 在 做 序列 比 对 时 了 两 个 
相对 应 的 残 基 的 相似 上 度 。 一 旦 这 个 佐 阵 定义 好 了 以 后 ， 比 对 程式 就 可 
以 利用 这 个 息 阵 ， 尽 量 将 相似 的 残 基 排 在 一 起 ， 以 过 到 最 好 的 比 对 。 
ji HIERHER PET n] Be5£ riu 2751 PE (point accepted mutation, 
PAM)AUS BUE. XRE(blocks substitution matrix, BLOSUM). 

1) PAM 4E [E 

AET EIBU ER TEABERAS, WRA AEREA, VUE] HAN 
TELAI, BAARN SUERPEHR TA URS ~A PAM 就 是 一 
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个 进化 的 变 弄 单位 , 即 1% 的 氨基 酸 改 变 , 但 这 并 不 意味 100 7X PAM 
后 ， 每 个 筑 基 酸 都 帮 生 变化 ， 因 为 其 中 一 些 位 置 可 能 会 丝 过 多 次 突 
变 ， 甚 至 可 能 会 变 回 到 忌 来 的 筑 基 酸 。 对 应 于 一 个 更 大 进化 距离 间 
陨 的 突变 概率 答 阵 ， 可 以 通过 对 初始 和 矩阵 进行 适当 的 数学 处 理 得 到 
(Dayhoff 等 ，1978)， 如 常用 的 PAM250 4E, PAM250 相似 性 分 数 
和 矩阵 相当 于 在 两 个 序列 之 间 具 有 20% 的 残 基 匹配 ， 如 图 1.2 所 示 。 

主 对 角 线 上 分 数值 是 指 两 个 相同 残 基 之 间 的 相似 性 分 数值 ， 有 些 残 
基 的 分 值 较 高 ， 如 色 氢 酸 W 为 17， 半 胱 氮 酸 C 为 12， 说 明 它 们 比 
BART DIRE; BIRENDRA WAAR S NAR A. 
门 冬 酰 胺 N 三 种 氨基 酸 均 为 2， 这 些 氨 基 酸 则 比较 容易 突变 。 不 同 
才 基 酸 之 则 的 分 数值 越 蜗 ， 它 们 之 间 的 相似 性 越 蜗 ， 进 化 过 程 中 容 
易 发 生 互 相 突 变 ， 如 丕 两 氮 酸 下 和 酷 损 酸 了 ， 它 们 之 间 的 相似 性 
分 数值 是 7; 而 相似 性 分 数值 为 负数 的 氨 基 酸 之 间 的 相似 性 则 较 低 ， 
MEHAR G MEZAR W 之 间 为 -7， 它 们 在 进化 过 程 中 不 易 发 生 互 相 
RA, ksh, BI 1.2 所 示 窍 阵 中 把 理化 性 质 相似 的 氨基 酸 按 组 排列 在 


图 1.2 PAM250 相似 性 分 数 和 矩阵 
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一 起 ， 如 碱 性 氨基 酸 组 扫 酸 H. AR RONUBASANE K. REAA 
阵 的 产生 基于 相似 性 较 高 (通常 为 85% 以 上 ) 的 序列 比 对 ， 那 些 进 化 
距离 较 远 的 滤 阵 (如 PAM250) ze PA] i TEA ep RESTE HA OTI AP 6 ECT 
FARR, HEME ERG. 914r TIT] 2x Gc fo DUE TER. 
离 较 远 的 序列 之 间 是 个 具有 同 源 性 ， 因 此 突变 数据 窍 阵 在 实际 使 用 
时 存在 一 定 的 局 限 性 。 

针对 不 同 的 进化 距离 采用 PAM KERE: 


序列 相似 度 = 40% 50% 60% 

| | | 
TT 2 XB E =  PAMI20 PAMS80 PAM60 
PAM250 1495— 2796 


2) BLOSUM 矩阵 

BiU RBWBLOSUM)U JF ZJFr Ey Ent, 4E SEE NUES 
块 数 据 库 BLOCKS. Henikoff 夫妇 (Henikoff 和 Henikoff, 1992) 
从 和 蛋 白质 模块 数据 库 BLOCKS rd Hd —2H 38 RPE, 用 于 解决 友 
列 的 远 距 离 相关 。 在 构建 和 疮 阵 过 程 中 ， 通 过 设置 最 小 相同 残 基 数 
百分比 将 序列 片段 整合 在 一 起 ， 以 避免 由 于 同一 个 残 基 对 被 重复 
计数 而 引入 的 任何 潜在 的 偏 羞 。 在 每 一 片段 中 ， 计 算出 每 个 残 基 
位 置 的 平均 页 献 ， 使 得 整个 片段 可 以 有 效 地 被 看 作 单 一 序列 。 通 
过 放置 不 同 的 折 分 比 ， 产 生 了 不 同 窍 阵 。 由 此 ， 融 于 或 等 于 80% 
相同 的 序列 组 成 的 串 可 用 于 产生 BLOSUMSO 矩阵 ;那些 有 62% 
或 以 上 相同 的 串 用 于 产生 BLOSUM62 4B e, 依 此 类 推 BLOSUM 
与 BLOCKS 对 于 同样 的 序列 比 对 产生 的 结果 在 局 部 有 所 不 同 , 可 
能 是 一 个 认为 不 相似 不 可 以 巷 换 ， 而 为 一 个 认为 相似 可 以 蕉 换 。 
必须 说 明 ， 如 果 比 对 这 两 个 序列 高 度 相 似 ， 这 些 细 微 的 差别 对 整 
个 序列 比 对 结果 的 影响 不 大 ， 但 在 订 列 比 对 的 边界 区 可 能 产生 显 
兰 影 响 ， 此 时 增强 微弱 信和 号 以 探测 远 距 离 相 关 变 得 十 分 重要 。 

IERE RE- PAM 窍 阵 的 不 同 之 处 在 于 : 

(D 用 于 产生 起 阵 的 和 抹 日 质 家 族 及 多 肽 链 数 目 ，BLOSUM tk 
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PAM 大 约 多 20 倍 。 

(2 PAM: 家 族 内 成 员 相 比 ， 然 后 把 所 有 各 族 中 对 条 种 氨基 酸 
的 比较 结果 加 和 在 一 起 ,产生 “取代 ”数据 (PAM-1)，PAM-1 An 
iX, fj PAM-n; BLOSUM: 首先 寻找 氮 基 酸 模 式 ， 即 有 意义 的 一 段 
氨基 酸 片 断 ( 如 一 个 结构 域 及 其 相 邻 的 两 小 段 和 氨基酸 序列 )， 分 别 比 
较 相 同 的 氨基 酸 模 式 之 间 氨 基 酸 的 保守 性 ( 菜 种 氨基 酸 对 男 一 种 毛 
基 酸 的 取代 数据 )， 然 后 ， 以 所 有 60% 保 守 性 的 氨基 酸 模 式 之 间 的 比 
较 数 据 为 根据 ， 产 生 BLOSUM-60; 以 所 有 80% 保守 性 的 氨基 酸 模 
式 之 间 的 比较 数据 为 根据 ， 产 生 BLOSUM-80。 

(3) PAM-n 中 ,nn 越 小 ， 表示 氨基 酸 变 寞 的 可 能 性 越 小 。 相 似 
的 序列 之 间 比 较 应 该 选用 n 值 小 的 窍 阵 ， 不 太 相 似 的 序列 之 间 比 
较 应 该 选用 n 值 大 的 矩阵 。PAM-250 用 于 约 20% 相 同 序列 之 间 的 
比较 。BLOSUM-n Y, n RN, KIRARA HI o REER 
相似 的 序列 之 间 比 较 应 该 选用 n ERRER, ARARE 9] 
间 比 较 应 该 选用 n 值 小 的 矩阵 。BLOSUM-62 用 来 比较 62% 相 似 
度 的 序列 ，BLOSUM-80 用 来 比较 80% 左 右 的 序列 。 

BLOSUM-62 4H Een E] 1.3 所 示 。 


[LO [C]S IT JSPJA]JG INID IE IQ HIRIKIMIT JL|V)F Y)W 
Eep a oa a a a a a a a a a a a a 
o a 


BaS -2| -2|-2|-3|-2| -3| -2| -3{-2| -1J -2| 2| 2|] -1| -1| -1| -1| 3| 7| 2| 
W] -2 | -3 | -3 | -4| -3 | -2 | -4| -4| -3| -2 | -2| 3| -3| -1| -3| -2| -3| 1| 2| 11| 


B| 1.3 BLOSUM-62 计 分 替换 矩阵 
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应 用 BLOSUM-62 算 阵 (为 示例 表述 清晰 ,只 截取 部 分 矩阵 内 容 ) 
计算 双 序列 比 对 残 基 分 数 的 示例 见 图 1.4。 


eA] Fir M ERR RET da 
111111 II HI 
序列 2 PTHPLAGERAIGLARLAEEDFGM 


蔡 换 矩阵 C 1 
C 9 | VA 
9.1 4 i| 
T- 1|5| S 
P -3 1-1 7 
A 0 1 0 4 
G-3 o[2]-2 0 6 
N-3 1 0 -2 -2 0 8 
D-3 0 -1 1 -2 -1 1 6 


K114 RENSAR 


在 这 个 例子 中 , 共有 两 条 序列 , 即 m2, 每 个 序列 有 23 个 残 基 ， 
且 长 度 相 等 , 即 L=23, 对 照 图 1.3 PRERE, A Sir 25, $4, 2-2 等 
比 对 数据 ， 则 

? residue = b» Y cOSI(5,,, S n) = 3 Y Y cost(S SnO p) — 48 


h-l i-l j=i+]l h-li j=l j=2 


在 比 对 过 程 中 需要 在 检测 序列 或 目标 序列 中 引入 空位 (gap)， 以 
表示 插入 和 删除 。 一 般 情 况 下 ， 参 与 比 对 的 多 条 序列 不 完全 相同 ， 
为 了 将 其 对 齐 ， 融 需要 插入 衬 位 。 为 了 使 整 条 厅 列 而 不 仅仅 是 空位 
插入 区 域 产 生 可 比较 的 模式 ， 衬 位 的 插入 是 必需 的 。 不 插入 空位 ， 
序列 比 对 过 程 束 无 法 进行 。 序 列 对 齐 后 ， 才 能 提出 最 初 的 同 源 性 假 
设 ， 才 能 确定 插入 缺失 置换 (transitiom) 和 颠 换 (transversiom 等 事件 是 
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否 发 生 以 及 发 生 位 置 和 发 生 频 率 。 

在 多 序列 比 对 阶段 ， 如 果 选 择 插 入 大 量 的 空位 ， 那 么 任意 两 条 
随机 的 不 相关 的 序列 都 可 以 对 齐 ， 但 是 这 样 的 比 对 结果 可 能 坚 无 
生物 学 意义 ， 因 此 必须 在 一 定 程 度 上 限制 空位 的 数目 以 产生 有 生 
物 学 意义 的 比 对 结果 ， 为 此 采用 一 个 打分 策略 : 匹配 的 残 基 获 得 
下 的 分 值 ， 而 空位 获得 负 的 分 值 或 者 叫 训 分 (Hall，2001)， 这 样 区 
得 最 大 净 分 值 的 比 对 结果 即 为 比 对 程序 所 寻找 的 最 优 结果 。 

室 位 罚 分 包括 两 部 分 : 起 始 空 位 罚 分 和 延伸 空位 加 分 。 一 般 起 
始 空 位 罚 分 高 于 延伸 空位 加 分 。 所 谓 起 始 空位 ， 是 指 序列 比 对 时 在 
某 一 序列 中 插入 的 第 一 个 空位 。 所 谓 延 伸 空 位 ， 是 指 在 引入 一 个 或 
几 个 空位 后 ， 继 续 引入 下 一 个 连续 的 空位 。 空 位 罚 分 》 penalty 有 
以 下 两 种 计算 方法 。 

1) 线性 空位 罚 分 

线性 空位 训 分 (constant gap penalty) 是 最 简单 的 记分 方式 ， 对 于 
每 一 个 空位 避 同 样 的 分 数 ， 则 总 空位 避 分 的 计算 公式 为 
X penalty =nx gap。 其 中 ，n 是 空位 的 个 数 ，gap 是 空位 的 记分 。 

对 于 图 1.5 示例 ， 假 设 空位 罚 分 为 $S， 则 该 例 的 总 空位 罚 分 是 11 x 
5-55 分 。 


bsc NN 
图 1.5 线性 空位 如 分 计算 


2) Uis EDU Y 

A SE ER RAER DLE ALTE ARRA, AXE TROIS DUE XC Un 
TAW AT SOEUR E. FFA — AANE H RETI] 3 ADAN EER 
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M EUR TMa (gap open penalty) 和 延伸 容 位 记分 (gap extend 
penalty) 的 值 域 分 别 为 0 一 100 和 0~10。 研究 表明 ,增加 起 始 空 位 罚 
分 会 使 插入 空位 频 识 降低， 增加 延伸 空位 记分 则 使 宇 位 变 短 。 起 怒 
宇 位 后 的 延伸 衬 位 被 同 予 较 小 的 划分 仁 ， 用 以 或 励 长 的 且 更 加 连续 
的 空位 而 不 定 大 量 单个 衬 位 的 插入 。 

起 始 衬 位 妊 分 和 延伸 空位 如 分 的 分 值 和 直接 影 啊 到 序列 比 对 的 续 
R, WK 1.1 所 示 。 


zx 1.1. 起 始 空位 罚 分 和 延伸 空位 罚 分 对 比 对 的 影响 


说 了 明 


大 插入 和 删除 极 少 ， 适 用 于 相似 性 较 高 的 序列 比 对 
n 小 “| 少量 的 大 片 空位 插入 
j^ 大 量 小 块 插入 ， 用 于 相似 性 较 低 的 序列 比 对 


念 册 空 位 训 分 根据 生物 定义 将 容 位 分 为 起 怒 守 位 (gap open penalty) 
和 延续 空位 (gap extend penalty)， 其 产生 的 广 分 分 别 简 写 为 GOP 和 
GEP, > penalty = Noo ° GOP + Na * GEP 。 其 中 ，Noop 是 GOP 
的 个 数 ，N_ 是 GEP 的 个 数 ， 日 GOP>GEP. H^ ^E XII 
乔 分 是 当前 最 常 应 用 的 罚 分 方式 。 图 1. 示例 以 仿 射 空位 罚 分 计算 ， 
则 如 图 1.6 所 示 。 


(1-——-[TTASE-DD 


共计 4 个 起 始 空位 ，7 个 延续 空位 


CGR m 


Kile QT R 
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假设 起 始 衬 位 前 分 为 $， 延 续 衬 位 首 分 为 1, MAARI EAE 
分 是 4x5+7x1=27 分 。 


1.4 多 序列 比 对 方法 


141 比 对 方法 
1. 手工 比 对 


手工 比 对 方法 就 是 通过 辅助 编辑 软件 (如 BioEdit、SeaView、 
GeneDoc 等 软件 ) 的 不 同 颜 色 显 示 不 同 残 基 ， 徘 分 析 者 的 观察 ， 手 工 
改变 比 对 的 状态 。 手 工 比 对 方法 在 文献 中 经 党 看 人 到。 因为 在 手工 比 
对 过 程 中 难免 会 有 一 些 主 观 因 系 ， 通 党 外 认 为 有 较 大 的 随 总 性 。 

通 澡 使 用 不 同 颜 色 表 示 其 有 个 同 特性 的 残 基 ， 以 便 判 别 友 列 间 
的 相似 性 。 闫 色 的 选择 非常 睾 要 ， 如 琳 使 用 不 当 ， 则 看 起 来 不 够 耻 
观 ， 束 会 丢失 一 些 比 对 结 琳 中 的 有 用 信息 。 及 之 ， 如 琳 迁 择 恰 妆 ， 
开 能 从 比 对 结果 中 快速 找到 条 些 草 要 的 结构 模式 和 功能 位 点 。 闫 色 
的 选择 可 以 根据 主观 愿 绷 和 豆 好 , 但 是 最 好 和 和 第 规 方法 一 八 。 表 1.2 
给 出 了 氨 基 酸 分 组 方法 和 代表 性 闫 色 。 

表 1.2 氨基酸 分 组 方法 和 代表 性 颜色 
残 基 种 类 颜色 
Asp(D). Glu(E) LEER th 

His(H), Arg(R), Lys(K) 


Ser(S), Thr(T). Asn(N). Gln(Q) 极 性 绿色 
Ala(A). Val(V), Leu(L). Ile, Met(M) | 朴 水 性 ， 带 支 链 
Phe(F), Tyr(Y). Trp(W) KHE, aA 


Pro(P), Gly(G) 侧 链 结构 特殊 
Cys(C) 能 形成 二 人 态 键 
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2. 计算 机 程序 目 动 比 对 


通过 特定 的 和 拭 法 (如 同步 法 、 渐 进 法 等 算法 ， 评 见 1.4.2 1), H 
计算 机 程序 目 动 搜索 最 佳 的 多 序列 比 对 状态 。 

(1) 同步 法 : 将 序列 两 两 比 对 时 的 二 维 动态 规划 和 矩阵 扩展 到 三 
维和 矩阵 ; 即 用 和 矩阵 的 维 数 来 反映 比 对 的 序列 数 日 。 这 种 方法 的 计算 
量 很 大 ， 对 于 计算 机 系统 的 资源 要 求 较 局 ， 一 般 只 有 在 进行 少数 的 
较 短 的 序列 比 对 时 才 会 用 到 这 种 方法 。 

(2) 渐进 法 : 最 常见 的 是 Clustal 所 采用 的 方法 ， 其 基本 思想 就 
是 基于 相似 序列 通常 具有 进化 相关 性 的 假设 。 


1.4.2 多 序列 比 对 算法 


在 生物 多 序列 比 对 方面 ， 现 有 的 算法 基本 分 为 三 大 类 : 精确 比 
对 算法 、 近 似 比 对 算法 和 基于 图 论 的 比 对 算法 。 


1. 精确 比 对 算法 


精确 比 对 算法 是 基于 数学 理论 基础 上 的 一 种 动态 规划 算法 。 利 
用 动态 规划 思想 求解 序列 比 对 问题 的 方法 最 早 由 Needleman 和 
Wunsch F 1970 年 联合 提出 ， 并 将 该 算法 用 于 求解 两 条 重 白 质 序 列 
的 全 局 比 对 问题 , 因此 诅 方 法 也 称 为 Needleman-Wunsch YE, 被 视 
为 经 典 的 双 序 列 比 对 全 局 动态 规划 算法 。1981 年 ，Smith 和 Waterman 
在 改进 Needleman-Wunsch 算法 的 基础 上 提出 了 经 典 的 双 友 列 比 对 
局 部 动态 规划 算法 一 一 Smith-Waterman 算法 ， 该 算法 适用 于 杀 缘 关 
系 较 远 、 上 整体 上 不 具有 有 相似 性 但 在 一 些 较 小 的 区 域 上 存在 局 部 相似 
性 的 两 条 序列 。 动态 规划 算法 的 思想 核心 是 将 原 问 题 分 解 为 子 问题 ， 
基本 步骤 如 下 : 

(1) 了 最 优 分 的 递归 计算 。 

(2) 存储 子 问 题 的 最 优 分 的 动态 规划 起 孟 。 

(3) 子 问题 最 优 解 矩 阵 的 填 宛 过 程 。 

Z3 
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(4) 寻找 最 优 比 对 路 径 的 回 蛮 方法 。 

精确 比 对 算法 的 优点 是 比 对 非 章 精确， 不 会 重复 算 或 漏 矢 。 通 
过 此 方法 虽然 能 得 到 理论 上 的 最 佳 值 ， 可 是 现实 中 并 不 常 采 用 此 方 
法 ， 因 为 此 算法 的 空间 和 时 间 的 复杂 度 都 会 随 着 序列 条 数 和 序列 的 
长 度 成 指数 级 的 速度 增长 。 由 于 动态 规划 消耗 的 时 间 开 销 太 大 ， 
此 一 般 只 用 于 双 序 列 比 对 问题 的 求解 中 。 动 态 规 划算 法 是 生物 信息 
学 中 一 个 最 流行 的 解决 方法 ， 序 列 的 比较 、 基 因 的 识别 、 蛋 白质 序 
列 的 重 排 以 及 梨 昌 质 结 构 和 功能 的 分 析 等 很 多 生物 信息 学 中 的 问题 
部 可 以 通过 动态 规划 的 方法 解决 。 但 是 基本 动态 规划 方法 的 时 间 和 和 
"t [HI ze BEN O(mx n) ， 满 正 不 了 实际 的 需要 ， 上 所 以 ， 后 人 在 此 基 
础 上 提出 了 各 种 各 样 的 基于 动态 规划 思想 的 改进 算法 。 下 面 介绍 经 
典 的 两 类 双 序列 动态 规划 算法 。 

1) Needleman-Wunsch 算法 

Needleman-Wunsch 算法 是 用 在 集 日 质 序列 的 双 比 对 问题 上 的 
经 典 全 局 动态 规划 算法 ， 放 算 法 从 整体 水 平 上 分 析 不 同 的 两 条 序列 
之 间 的 进化 关系 或 者 同 源 关 系 ， 即 考虑 序列 总 长 度 的 比较 ， 用 类 似 
于 使 整体 相似 最 大 化 的 方式 ， 对 序列 进行 比 对 。 如 果 参 与 比 对 的 是 
长 度 互 不 相同 的 几 条 序列 ， 则 需要 采用 一 些 方 法 在 序列 的 菜 些 位 置 
插入 容 格 ， 从 而 使 序列 的 长 上 度 达到 一 牧 。Needleman-Wunsch 算法 的 
基本 思想 是 : 使 用 递归 方法 计算 出 两 条 序列 所 有 可 能 的 比 对 结 末 的 
相似 性 得 分 ， 同 时 将 请 得 分 存储 在 未 个 如 阵 中 ， 运 巴 阵 称 为 得 分 谍 
隆 。 如 来 将 滤 阵 中 每 一 个 分 全 所 在 时 元 格 的 位 置 称 为 一 个 蛙 元 ， 则 
从 一 个 单元 移动 到 另 一 个 单元 的 路 径 或 着 说 方 问 最 多 有 三 种 : qn] E. 
回 直 和 加 元 上 。 回 调 时 从 右 下 角 开 始 ， 每 次 都 选择 相 邻 的 最 大 元 素 ， 
并 用 和 均 头 对 所 选 的 路 径 做 出 标记 ， 百 到 到 过 窍 阵 的 左上 角 时 才 算 疆 
束 。 这 时 根据 标 出 的 路 任 ， 通 过 动态 规划 的 方法 回 漳 ， 则 能 寻找 出 
地 优 的 相似 性 比 对 。 

WHY JS TIBHSBEA AM mI n. SA TIAA S[O, 7] 
FI tO, j] Lj»le RW UOAUF A] s[0,7] 4 (0, ;] Pr ERR NE ET 
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序列 的 最 优 比 对 ， 即 已 知 : 
(1) s[0,i 一 1 和 #0, 一 1 的 最 优 比 对 ; 
(2) s[0,; — 1RI[O, j] I] Se DG EN] s 
(3) s[0,7pRU[0, j —1] 的 最 优 比 对 。 
则 s[0, 相 和 7z[0, 朋 的 最 优 比 对 一 定 是 上 述 三 种 情况 之 一 的 扩展 ， 
BJ: 
(1) f (s, t) RULI (s, t) ， 这 取决 于 8 是否 等 村 ; 
(2) 删除 (s ,一 ) ; 
(3) 插入 C, PE 
^ M (s[0,i],t[0, jD 为 序列 s[0,;] F A0, A ERIA PTAR GA 
(1. DATIS DS VA EE SV a KE: 
| M (s[0,; — 11,10, j] - os,,—)) 
M (s[0,;]. ([0, j]) = max 4 M (s[0.; — 1]./[0, j — 1] - o s,. 1.) (1.1) 
k (s[0,;], IT 1] - 0(—.1,)) 
| M(s[0,0],/[0,0]) 20 
其 初 值 为 rannan -M(s[0,;—1,,10,0]--0(s,,—) (1.2) 
M (s[0,0]. /[0, ;]) = M (3[0,0], 0, j — 1]- o —.7;)) 
按照 这 种 方法 ， 对 于 给 定 的 打分 函数 G(s,,t;) ， 两 条 序列 所 有 前 
级 的 比 对 得 分 值 定 义 了 一 个 (m+]D)x(n+1) 的 得 分 窍 阵 : 
D - (d, ,) (1.3) 
AU, d, 2 M(s[0.i]./[0, j]) 。 
对 于 一 个 长 度 为 n 的 序列 ， 有 n+1 个 前 级 (包括 一 个 空 序列 )， 
所 以 得 分 矩阵 的 大 小 为 (m+1)x(m+1)。 其 中 和 矩阵 的 纵 轴 方 向 自 上 而 
下 对 应 于 第 一 条 序列 S. 横 轴 方 回 从 左 到 右 对 应 于 第 二 条 序列 T. 4B 
阵 横 向 移动 表示 在 纵 轴 序列 中 加 入 一 个 空位 ， 纵 向 的 移动 表示 在 横 
轴 序 列 中 加 入 一 个 罕 位 ， 而 矢 对 角 回 的 移动 表示 两 序列 各 目 相 应 的 


子 从 进行 比 对 ， 各 轴 第 一 个 元 又 的 索引 下 标 为 0。 
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| Ba + 0O(s,,—) 
Eg E O(s;;.t A (1.4) 
| d, j- Tu I 7) 
d, ;最 大 值 的 三 种 选择 决定 了 各 滤 阵 元 系 之 加 的 天 系 ， 如 图 1.7 
所 示 。 


d. ， — max «4 d, 


dip d | 


i /一 


图 1.7 和 矩阵 各 元 素 的 关系 


矩阵 右 下 角 元 素 即 为 期 望 的 结果 : d, = M (s[0,m].[0,n]) 2 M (s. - 
其 计算 过 程 摘 述 如 下 : 肯 先 初始 化 得 分 矩阵 D， 然 后 计算 D ERER 
其 他 元 妹 。 计 算 过 程 从 dg ,开始 ， 可 以 按 行 计算 ， 每 行 从 顽 到 右 ， 
也 可 以 控 列 计算 ,每 列 从 上 到 下 ,任何 计算 过 程 ,只 要 满 中 在 计算 gq, 
时 d, d, qj 部 已 经 饭 计 算 这 个 条 件 即 可 。 在 计算 q, Ji Tu 
要 你 存 d; , se d, V, Bk d, ,中 的 哪 一 个 推进 的 , RRT VE ITI ER E, 
以 便于 后 续 处 理 。 上 述 计 算 过 程 到 gq SW. 

与 计算 过 程 相 反 ， 求 最 优 路 径 或 最 优 比 对 时 ， 从 @， 开 始 ， 反 
向 前 推 。 假设 在 反 推 时 到 达 q,;,， 现 在 根据 保存 的 计算 路 径 判 断 gq 
JEER d d, d, 9; ji 中 的 哪 一 个 计算 而 得 到 的 。 找 到 这 个 操 
以 后 ， 再 从 此 点 出 发 ， 一 直到 ,为止 。 走 过 的 这 条 路 径 就 是 最 优 
路 径 ( 即 得 分 最 大 路 径 )， 其 对 应 于 两 条 序列 的 最 优 比 对 。 

根据 算法 原理 可 以 计算 出 Needleman-Wunsch 算法 在 双 友 列 比 
HRE RREN Omen) 。 三 条 序列 比 对 可 以 理解 为 将 双 序 列 比 
对 的 二 维 空间 扩展 到 三 维 空 间 ， 关 似 于 数学 中 的 三 维 坐 标 系 ， 即 在 
原来 的 二 维 平 血 上 增加 一 条 坐标 轴 ， 此 时 算法 的 时 间 复 杂 上 度 殉 变 成 
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了 OGm。n。p)，p 是 第 二 条 友 列 的 长 上 度 。 依 此 类 推 ， 当 用 Needleman- 
Wunsch 算法 解决 入 条 序列 比 对 的 时 间 复 杂 上 度 为 OQ el, el, 0)， 
lL 是 第 六 条 序列 的 长 度 。 

2) Smith-Waterman 算法 

在 生物 学 中 ， 残 基 的 功能 点 是 由 较 短 的 序列 片段 组 成 的 ， 亲 经 
关系 较 远 的 两 条 重 日 质 友 列 可 能 只 存在 一 些 相 同 的 基因 厂 段 ， 因 此 
TRARA EA RIMER RI FØRARAR ERA EHA 
X. 1981 Œ, Smith 和 Waterman 在 改进 Needleman-Wunsch 算法 的 
基础 上 提出 了 Smith-Waterman 算法 。 该 算法 是 经 典 的 双 序列 局 部 比 
对 动态 规划 算法 ， 运 用 于 杀 缘 关系 较 近 、 整 体 上 不 具有 相似 性 但 在 
一 些 较 小 的 区 域 上 存在 局 部 相似 性 的 两 条 序列 。 

Smith-Waterman 宽 法 的 思想 与 Needleman-Wunsch 算法 基本 相 
似 ， 仍 然 采 用 动态 规划 思想 ， 记 分 矩阵 的 方式 在 识别 局 部 相似 性 时 
REJE ao RAE Smith-Waterman 的 记分 窍 阵 中 元 素 是 根据 
式 (1.9) 所 得 ， 且 三 个 记分 图 数 的 全 也 有 相应 的 变化 。 

í MGIO.E- T]4[0. j]+ as ) 

M (s[0,7],7[0, j]) 2 max; M (s[0,; — 1].7|0, j — 1] - os; f; )) (1.5) 

L M (s[0.i] 0, 7 -1] - o(—. 1.) 


M (s[0,0],0,0]) 2 0 
KIMEN M(s[0,i], 40,0) =0 (1.6) 
M (s[0,0]./[0, j) =0 


5. Needleman-Wunsch 算法 和 Smith-Waterman 算法 的 不 同 
HET B IBS id 4 RREEINA Pf8JFA28, 838] 8]7c E f82X 1E; 
mAAR EKRAR, REFE MMAR 0 
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2. 近似 比 对 算法 


近似 比 对 算法 义 称 局 友 式 拭 法 。 目 前 国际 上 最 其 代表 性 的 局 友 
式 算 法 有 了 两 大 闫 : 潮 进 比 对 算法 和 过 代 比 对 算法 。 

1) 渐进 比 对 算法 

渐进 比 对 算法 又 称 贪心 算法 , 最 开始 是 由 Hogeweg 提 出 的 ,Feng 
和 Doolittle 等 改进 了 此 算法 ， 并 开 肥 出 了 现在 经 昔 使 用 的 序列 比 对 
程序 软件 包 Clustal、ClustalW 和 工 Coffese。 这 种 算法 的 思路 是 : B 
先 将 多 个 序列 两 两 比 对 构建 距离 中 阵 , c HORE 91] 27 [RI HJ P PA AX ZR s 
然后 根据 距离 矩阵 计算 系统 进化 指导 树 ， 对 关系 密切 的 序列 进行 
加 权 ; 了 最 后 从 关系 最 蒜 密 的 两 条 序列 开始 ， 逐 步 引进 临近 的 序列 
并 不 断 重 新 构建 比 对 ， 百 到 所 有 序 列 都 航 加 入 为 止 。 渐 进 比 对 得 
法 由 于 向 单 快 速 的 特点 ， 使 它 成 为 多 序列 比 对 中 最 章 用 的 方法 之 
一 ， 但 由 于 渐进 比 对 算法 的 本 质 为 贫 心 算法 ， 一 识 比 对 的 部 分 续 
条 不 能 随 看 比 对 过 程 中 更 多 序列 的 加 入 而 改变 ， 因 此 由 于 渐进 过 
程 中 部 分 比 对 结 东 是 “ 诛 结 ”的 ， 从 而 寻 笃 “局 部 最 小 化 ”问题 
的 产生 。 

ClustalW 是 一 个 最 第 用 、 最 经 典 的 基于 潮 进 比 对 算法 的 多 序列 
比 对 程序 。ClustalW 采用 近邻 法 生成 回 导 树 ， 此 算法 对 树 的 每 一 个 
分 术 长 度 的 估算 更 准确 ， 这 样 依据 分 校长 度 计算 的 序列 权重 也 残 更 
JE. 737^, ClustalW 所 及 用 的 空位 划分 脓 略 比较 复杂 ， 影 啊 衬 
位 间 分 的 因素 有 残 基 特 开 性 、 序 列 长 度 、 比 对 时 采用 的 记分 窍 阵 、 
序列 相似 程度 、 衬 位 位 置 等 ， 这 了 吏 使 得 空位 的 产生 更 加 合理 ， 从 而 
提高 了 比 对 的 准确 度 。 工 Coffee 也 是 一 个 采用 潮 进 比 对 算法 的 多 订 
列 比 对 程序 ， 它 与 ClustalW 最 大 的 不 同 在 于 : 前 者 采用 SP 记分 函 
数 作为 目标 函数 ， 而 T-Coffee 采用 Coffee 记分 函数 作为 目标 水 数 ， 
这 样 可 以 有 效 减 少 比 对 初期 的 错误 , 使 得 T-Coffee 可 以 快速 、 准确 地 
进行 序列 比 对 。 测 试 结果 表明 T-Coffee 比 对 的 准确 度 高 于 ClustalW, 
但 其 比 对 速度 低 于 ClustalW 。Iain M.Wallace 所 出 了 一 种 M-Coffee 的 
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方法 ， 此 方法 是 在 工 Coffee 的 基础 上 进行 的 。Katoh K 提出 的 MAFFT 
是 一 个 引入 快速 傅 里 叶 变 换 的 快速 多 序列 比 对 程序 , 它 将 每 一 条 序列 
转化 为 包含 每 一 个 残 基 的 体积 和 极 性 值 的 序列 ， 然 后 采用 快速 傅 里 
叶 变 换算 法 来 寻找 序列 加 的 同 源 模块 ， 从 而 减 小 动态 规划 的 矩阵 衬 
B]e MAFFT 中 的 FFTNS 2 基于 渐进 比 对 算法 实现 ,测试 结果 表明 
其 比 对 速度 快 于 ClustalW. Edgar R C 提出 的 MUSCLE 方法 在 时 间 
复杂 度 和 空间 复杂 上 度 上 进行 了 改进 。 

2) 迭代 比 对 算法 

迭 代 比 对 是 另 一 关 有 效 的 应 用 广泛 的 多 序列 比 对 策略 ， 与 渐进 
比 对 算法 不 同 ， 它 基于 一 个 能 产生 比 对 的 算法 ， 并 通过 一 定 的 进化 
策略 ， 不 断 迭 代 蔡 换 来 精细 多 序列 比 对 ， 直 到 比 对 结果 不 再 改进 为 
目 。 这 类 算法 的 缺点 是 个 能 提供 获得 优化 比 对 结果 的 你 证 ， 速 度 也 
不 能 和 渐进 比 对 算法 相 比 。 优 点 是 将 目标 男 数 和 优化 过 程 在 概念 上 
进行 了 分 离 ， 有 具有 年 棒 性 、 对 于 序列 比 对 个 数 不 敏 感 等 特性 。 

近年 来 ， 友 代 算法 也 补 越 来 越 多 地 应 用 到 序列 比 对 中 去 ， 如 址 
TEE. MERERI. HARER. Cedric Notredame E tte His 
传 算 法 解决 多 序列 比 对 问题 , 在 遗传 算法 中 对 22 ELERT 
用 了 一 个 日 动 调度 机 制 ， 并 证 实 了 此 算法 的 有 效 性 ， 其 准确 上 度 与 
ClustalW 结果 相似 。Notredame 提出 了 将 遗传 算法 应 用 在 RNA 厅 列 
比 对 上 ， 并 取得 了 很 好 的 比 对 结果 。Thomsen 研究 发 现 ， 使 用 目 动 
调度 菏 上 略 得 到 的 结果 并 不 比 以 同等 概率 选择 交 传 算 子 好 ， 因 此 日 动 
调度 策略 的 使 用 并 非 改 赤 其 算法 的 准确 性 ， 反 而 使 得 算法 的 复 林 上 谍 
Jm. Goondro C 认为 初始 化 种 群 的 质量 百 接 影响 到 算法 的 收敛 速 
上 度 ， 适 应 度 值 高 的 种 群 能 够 很 快 地 收敛 到 接近 最 优 解 的 解 ， 因 此 他 
提出 了 一 种 新 的 初始 化 种 群 的 方法 ， 以 增高 初始 种 群 的 适应 度 值 。 
Fernando Jose Mateus da Silva 提出 了 将 局 部 最 优 搜索 融入 遗传 算法 
中 的 新 算法 ， 提 高 了 算法 的 准确 度 。 肯 桂 武 提出 了 一 种 基于 遗传 算 
法 与 星 比 对 算法 的 多 序列 比 对 混合 算法 ， 这 种 算法 是 先 通 过 星 比 对 
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算法 得 到 一 个 多 序列 比 对 , 然后 将 这 个 比 对 作为 种 群 中 的 一 个 个 体 ， 
并 结合 遗传 算法 的 一 种 混合 算法 。 张 维 梅 提 出 了 一 种 基于 遗传 算法 
和 蚁 群 算法 的 多 重 序 列 比 对 算法 ， 这 种 算法 是 将 蚁 群 算法 作为 局 部 
搜索 的 一 种 算法 。 司 秀 华 提出 了 一 种 多 搜索 策略 的 多 生物 序列 比 对 
目 适应 遗传 算法 ， 这 种 算法 是 通过 调整 遗传 算法 中 的 交叉 率 和 变异 
紊 从 而 避 倪 算法 找到 局 部 最 优 而 提出 的 。 司 徒 洁 色 提出 了 基于 壮 传 
算法 的 多 序列 比 对 算法 。 还 有 许多 的 求解 多 序列 比 对 的 混合 算法 ， 
如 遗传 算法 和 蚁 群 算法 相 结 合 的 求解 多 友 列 比 对 的 方法 、 半 传 算法 
和 GLOCSA 相 结 合 的 序列 比 对 方法 、 并 行 混合 遗传 舞 法 ， 还 有 一 
些 以 遗传 算法 为 主 的 序列 比 对 算法 。 除 了 这 些 算法 外 ,还 有 许多 其 
他 的 方法 , 如 TaheriJ 提出 的 两 种 求解 多 序列 比 对 的 方法 RBT-L 和 
RBT-GA。Fan H 提出 了 乔 能 算 子 在 壮 传 算法 中 的 应 用 。 邹 权 和 于 
成 祖 等 综述 了 第 见 的 局 发 式 方法 ,除了 遗传 算法 和 粒子 群 算法 ， 还 
有 许多 其 他 的 局 发 式 方法 , 尽管 在 应 用 到 多 序列 比 对 问题 上 做 了 许 
多 尝试 , 但 中 间 还 存在 一 些 十 分 难处 理 的 问题 ,因而 还 没有 形成 基 
于 这 些 方法 的 主流 软件 。 

根据 迭代 算法 的 特点 ， 本 书 以 迭代 算法 作为 解决 多 序列 比 对 的 
主要 方法 ， 包 括 遗 传 算 法 、 粒 子 群 算法 、 量 子粒 子 群 算法 以 及 结合 
HMM 的 粒子 群 算法 等 方法 ， 在 后 面 将 详细 介绍 这 些 欠 代 算法 的 基本 
原理 与 应 用 。 


3. 基于 图 论 的 比 对 算法 


应 用 图 论 解决 多 序列 比 对 回 题 的 思想 是 近年 来 所 出 并 友 展 起 
来 的 一 种 新 方法 ， 它 与 动态 规划 算法 、 渐 进 比 对 算法 和 充 代 比 对 
算法 有 看 根本 上 的 不 同 。 

这 种 鼻 法 的 基本 思路 是 通过 将 序列 中 所 有 的 上 请 段 转化 成 一 个 
DeBrugn 图 ， 将 序列 准 配 问题 转变 成 欧 拉 路 任 问 题 ， 这 种 万 法 称 为 
“ 欧 拉 比 对 ”。 利 用 图 论 方法 进行 多 序列 比 对 最 重要 的 优势 是 在 比 对 
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过 程 中 所 需要 的 时 间 和 空间 与 序列 的 长 度 成 线性 关系 ， 并 且 可 以 所 
局 比 对 精度 。 全 局 多 序列 比 对 问题 实际 上 束 是 多 个 极 新 片段 的 装配 
问题 ， 如 图 1.8 所 示 ， 如 条 儿 乎 所 有 的 片段 都 来 目 于 基因 组 的 相同 区 
域 ， 欧 拉 比 对 方法 区 会 输出 该 区 域 的 一 致 性 序列 。 对 于 多 序列 比 对 ， 
如 条 一 致 性 序列 是 与 所 有 给 定 序列 最 接近 的 一 个 ， 那 么 残 硕 望 通过 
茶 种 记分 机 制 提 高 序列 的 一 致 性 。 欧 拉 比 对 将 原始 的 复杂 网 转化 成 
^H In] ZG Él (directed acyclic graph, DAG), Jf H. £e xt fé PIS n] Bé 
记 住 这 些 序列 的 k 元 组 ， 而 且 DAG 图 的 边 的 权重 记录 的 是 序列 的 
一 致 性 的 最 大 值 。 
待 匹配 片段 


| 
f 


E6227 
图 1.8 “序列 比 对 问题 转化 为 序列 装配 问题 


通过 这 两 步 ， 寻 找 一 致 性 序列 的 问题 束 成 了 寻找 最 大 路 径 的 问 
题 ， 寻 找 的 主要 流程 是 : OHA P RERA k 62H 93578 [In] 
DeBruijn 图 ，@) 将 有 向 DeBruijn 图 转换 成 DAG; @ 根 据 DAG 各 条 
边 的 权重 求 出 一 致 性 路 径 ; 外 在 一 致 性 路 径 和 每 个 输入 序列 之 间作 一 
次 快速 双 序 列 比 对 ; 岛 根 据 双 序 列 比 对 构造 最 后 的 多 序列 比 对 结果 。 

基于 图 论 的 多 序列 比 对 方法 的 主要 代表 就 是 Lee 和 Grasso 等 
提出 的 偏 序 比 对 方法 (partial order alignment, POA). POA 能 直接 
根据 动态 的 双 友 列 比 对 程序 目 动 地 进行 比 对 ， 避 人 免 了 将 MSA 降 
低 维 数 的 厂 烦 ， 从 而 保证 每 一 个 新 序列 与 MSA 中 的 序列 的 最 优 比 
对 者 能 被 考虑 到 .在 POA 复 法 中 ， 痢 的 编辑 操作 一 一 同 源 重 组 在 多 
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区 域 友 列 中 起 看 重要 作用 ， 以 有 问 无 环 图 (DAG) 的 表示 方式 取代 了 
过 去 30 多 年 来 用 线性 行列 表示 多 序列 比 对 的 方式 。 在 行列 表示 的 比 
对 方法 中 ， 图 总 是 单一 的 有 回路 径 ， 而 POA 方法 扩展 了 图 的 结构 ， 
使 得 它 成 为 一 个 有 癌 无 环 图 ， 打 人 破 了 这 个 限制 ， 在 多 序列 比 对 领域 
中 打开 一 个 全 新 的 视角 。 后 来 Yuzhen Ye 和 Adam Godzik dts 5 
构 叉 进一步 应 用 于 重 白 质 序列 比 对 中 。Benjamin Raphael 等 在 2004 
年 提出 了 ABA(A-Bruijn alignment) 算 法 。ABA 算法 与 以 前 的 方法 
不 同 点 在 于 ABA 以 有 回 图 的 方式 表示 一 个 比 对 ， 在 这 个 图 中 多 
许 环 的 存在 。 这 种 表示 方式 使 得 ABA 算法 比 传统 的 比 对 矩阵 甚至 
偏 序 比 对 (POA) 更 具有 灵活 性 ， 尤 其 适用 于 含有 交错 或 重复 区 域 结 
构 的 蛋 日 质 序 列 。 人 允许 构 建 包含 下 和 面 三 类 区 域 的 重 日 质 序列 : CO 
是 在 所 有 得 白 质 序 列 中 都 出 现 的 区 域 ; 所 在 不 同 的 重 白 质 中 以 不 同 
顺序 出 现 的 区 域 ， 加 在 某 些 重 白 质 序 列 中 重复 出 现 的 区 域 。ABA 
在 求解 包含 重复 和 倒 位 的 DNA 序列 比 对 问题 时 非常 适用 。 霍 红 卫 
提出 了 用 于 进行 全 局 DNA 多 序列 比 对 的 基于 最 大 权 值 路 径 算 法 的 
DNA 多 厅 列 比 对 方法 。 

现 有 的 多 序列 比 对 程序 大 多 基于 上 述 算法 思想 或 多 种 算法 思想 
的 结合 并 且 选 择 不 同 的 目标 函数 。 表 1.3 列 出 了 部 分 研究 成 果 。 

现 有 的 多 序列 比 对 程序 各 有 其 优 缺 点 ,有 文献 对 部 分 比 对 程序 做 
了 比较 , 所 得 结论 为 不 存在 唯一 最 好 的 比 对 程序 , 在 进行 序列 比 对 时 ， 
根据 问题 特性 ， 选 用 不 同 的 序列 比 对 程序 ， 以 期 得 到 最 满意 的 比 对 结 
果 。 而 对 于 所 得 到 的 比 对 结果 也 不 能 简单 地 做 出 “正确 或 错误 ”的 
结论 ， 因 为 多 序列 比 对 的 方法 建立 在 某 个 数学 或 生物 学 模型 上 ， 所 以 
只 能 认为 所 使 用 的 模型 在 多 大 程度 上 反映 了 序列 之 则 的 相似 性 关系 
以 及 它们 的 生物 学 特性 。 
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表 1.3 多 序列 比 对 算法 统计 表 
程序 名 称 算法 
MSA 准确 比 对 ， 基 于 Carrillo-Lipman 算法 
DCA 准确 比 对 ， 基 于 分 治 法 
CLUSTALW | 渐进 比 对 ， 基 于 动态 规划 方法 ，SP 记分 函数 
T-Coffee 渐进 比 对 ， 基 于 动态 规划 方法 ，COFFEE i27 FRA 
Praline 渐进 比 对 和 达 代 比 对 结合 
IterAlign A EBON 
Prrp BE LAS EEDDST 
HMMT 随机 适 代 比 对 ， 基 于 Markov 模型 
SAGA 随机 友 代 比 对 ， 基 于 遗传 算法 ，SP 和 COFFEE 记分 函数 可 选 
PHGA BEPLEIT, IEFATA, SP 记分 函数 
MAFFT 其 中 FFTNS-2 采用 渐进 比 对 ，FFT-NS-1 采用 迭代 比 对 
MUSCLE 渐进 比 对 
Align-m 渐进 比 对 
PROBCONS | 渐进 比 对 
POA 图 论 比 对 
ABA 图 论 比 对 


1.5 Zn IDs n He 


随 看 生物 数据 的 焊 炸 增长 ， 目 前 记录 的 核 甘 酸 序 列 已 有 成 干 
EJZ, EATI 10 万 条 。 如 此 巨大 数量 的 资源 ， 必 须 应 
用 电子 数据 库 的 存储 和 计算 机 分 析 。 在 对 生物 序列 进行 分 析 的 过 
程 中 ， 除 了 由 生物 学 实验 百 接 得 到 实验 数据 信息 外 ， 还 可 以 通过 
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个 询 相 关 的 生物 学 数据 库 来 得 刘 相 天 的 数据 信息 ， 特 询 对 于 数据 
分 析 方 法 的 确立 和 研究， 大 量 已 知 的 数据 信息 古 必须 和 非 第 香 要 
的 。 昌 然 目前 有 很 多 不 同类 型 的 数据 库 ， 但 这 里 将 结合 本 书 的 主 
题 ， 根 据 数 据 库 的 用 途 进行 分 类 ， 分 别 介 绍 两 种 常用 的 生物 序列 
数据 库 ， 通 过 应 用 数据 库 可 以 得 到 核酸 序列 和 氨基 酸 序列 的 基本 
信息 得 询 和 序列 比 对 算法 的 验证 ， 为 基因 与 重 白 质 的 深入 分 析 提 
供 可 参考 的 信息 。 


1.5.1 综合 性 数据 库 


这 类 数据 库 中 包含 的 生物 数据 信息 非常 齐全 ， 通 第 应 用 于 搜索 
合 询 相关 的 生物 数据 。 以 下 是 两 个 妾 用 的 数据 库 中 心 ， 它 们 提供 了 
100 多 种 不 同 数 据 库 的 链接 。 


1. NCBI( 美 国 国家 生物 技术 信息 中 心 ) 


NCBlI(http://www.ncbi.nlm.nih.gov)4*4 7j National Center of 
Biotechnology Information. iX ^i Claude Pepper 意识 到 信息 计算 机 
化 过 程 方法 对 指导 生物 医学 研究 的 重要 性 ， 友 起 了 在 1988 *F 11 H 4 
日 建立 国立 生物 技术 信息 中 心 NCBD 的 立法 ,NCBI 是 NH 的 (美国 ) 
国立 医学 图 书包 (NLM) 的 一 个 分 文 。 NLM 是 因为 它 在 创立 和 维护 生 
物 信息 学 数据 库 方面 的 经 验 锐 选择 的 ， 和 而 且 这 可 以 建立 一 个 内 部 的 
关于 计算 分 子 生 物 学 的 研究 计划 。 NCBI 的 主要 任务 是 发 展 新 的 信息 学 
扩 木 来 带 助 对 那些 控制 健康 和 疾病 的 基本 分 季 和 遗传 过 程 的 理解 。 
NCBI AIR EA, 基因 名 、 基 因 组 名 等 搜索 工具 , GenBank 数据 库 、 
BLAST 序列 比 对 搜索 工具 ，PUBMED 文献 数据 库 ，Taxonomy 数据 ， 
COG &HAJXFESE,. FTP 可 以 下 载 它 全 部 的 数据 库 、BLAST 的 单 
机 程序 ， 以 及 各 种 工具 程序 。 到 目前 为 止 , NCBI 已 成 为 世界 级 的 生 
物 信息 资源 中 心 ， 为 生物 医学 和 生命 科学 研究 提供 了 大 量 数据 和 分 
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析 工 具 的 平台 。 
2. EBI( 欧 洲 生 物 信息 研究 所 ) 


EBI(http://www.ebi.ac.uk/) 全 称 是 European Bioinformatics Institute. 
EBI 拥有 超过 20 年 生物 信息 和 学 人 研究 和 服务 经 验 ， 是 全 球 收集 和 传播 
生物 数据 、 所 供 免 费 生 物 信息 服务 的 欧洲 三 挟 。 访 所 定理 维护 看 世 
寞 最 全 和 而 的 分 于 生物 数据 库 ， 其 中 很 多 古生物 学 家 询 炙 的 数据 库 ， 
如 ENA( 核 酸 序 列 数据 库 )、Ensembl( 基 因 组 )、ArrayExpress( 基 因 表 
AAE UniProtKB AJEA, InterPro(4 E49 ZA / T 8 EA 38 2X 
等 ) 和 PDBe( 大 分 子 结构 )。ENA 在 原 EMBL-Bank 核酸 序列 数据 库 
基础 上 发 展 起 来 ， 是 欧洲 最 重要 的 核酸 序列 资源 ， 与 美国 NCBI 的 
GenBank 和 日 本 的 DDBJ 组 成 国际 核酸 序列 数据 库 合 作 联 盟 
(NSDC)。 这 三 大 数据 库 各 目 收录 了 世界 上 上 所 报道 的 所 有 序列 数据 
的 一 部 分 ， 并 且 每 天 实时 更 新 交换 各 目的 序列 信息 。EBI 的 数据 资 
源 包 括 IntAct( 8 F1JAH H.TEH]). Reactome(/«. 3815). ChEBIC Z7 
TS. EBI 癌 全 球 提供 人 饮 费 的 生物 信息 服务 ， 友 展 和 维护 看 多 种 用 
于 浏览 、 检 索 、 分 析 处 理 生 物 数据 的 工具 服务 ,数据 获取 工具 SRSQ 
列 检 索 系 统 ) 为 用 尸 提 供 了 快速 、 便 捷 和 友好 的 界面 以 搜索 超过 400 
个 局 域 和 公众 数据 库 中 大 量 不 同 种 类 的 生命 科学 类 数据 。 序 列 数据 
搜索 包括 FASTA, NCBI BLAST 和 WU-BLAST 序列 同 源 性 和 相似 
性 对 比 工 其 。 其 他 未 包括 和 集 日 质 功 能 分 析 、 进 化 树 分 析 、 大 分 于 绽 
构 分 析 与 多 维 显示 等 。 

在 应 用 数据 库 搜 索 序 列 时 ， 有 两 种 第 见 的 序列 文件 格式 ， 如 图 1.9 
和 图 1.10 所 示 。 

GenBank 订 列 文件 中 包含 了 一 个 基因 的 每 个 记录 ， 出 现在 该 图 
中 的 不 同 列 中 。 属 于 平面 文件 格式 ， 应 用 于 文学 处 理 计 算 机 语言 方 
面 。 域 的 名 称 显 示 在 击 徊 ， 完 整 的 记录 非 彰 长 ， 因 此 在 这 里 只 显示 
了 项 部。 
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LOCUS . RATOBESE 539 bp s3-mANA ROD  23-SEP-1995 
DEFINITION Rat mRNA for obese. 
ACCESSION D49653 
KEYWORDS . 
SOURCE Rattus norvegicus (strain OLETF, LETO and Zucker, ) differentiated 
adipose cDNA to mRNA. 
ORGANISM Rattus norvegicus 
Eukaryotae; mitochondrial eukaryotes; Metazoa; Chordata; 
Vertebrata; Sarcopterygii; Mammalia; Eutheria; Rodentia; 
Sciurognathi; Myomorpha; Muridae; Murinae; Rattus. 
REFERENCE 1 (bases 1 to 539) 
AUTHORS  Murakami,T. and Shima,K. 
TITLE Cloning of rat obese cDNA and its expression in obese rats 
JOURNAL Biochem. Biophys. Res. Commun. 209, 944-952 (1995) 
STANDARD full automatic 
COMMENT Submitted (10-Mar-1995) to DDB.J by: 
Takashi Murakami 
Department of Laboratory Medicine 
School of Medicine 
University of Tokushima 
Kuramotocho 3-chame 
Tokushima 770 
an 
Phone: 4581-886-33- 7184 
Fax: «81-B86-31-0495. 


图 1.9 序列 文件 格式 GenBank 


>gi|995614|gb|D49653|RATOBESE Rat mRNA for obese. 


GAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCC 
TATCTGTCCI ATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTG 
rm rer errore ern prre m ne d ee MA CA 

CTICACCCCATTCTGAGTIT CCCTGGCAGTCTATCAACAGATCCTCAC 
CAGCTTGC GCCTTCCCAAAACGTGCT GCAGATAGCT CAT I GACCTOQ/ AGAACCTGCGAGACCTCCTCCATCTGCT 
G CCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCCTGCAGAAGCCAGAGAGCCTGGATGGCGTCC 
TGGAAGCCTCGCTCTACTCCACAGAGGTGGTGGCTCTGAGCAGGCTGCAGGGCTCTCTGCAGGACATTCTTC 
AACAGTTGGACCTTAGCCCTGAATGCTGAGGTTTC 


图 1.10 序列 文件 格式 FASTA 


FASTA 序列 文件 中 包含 了 gi 号码 、GenBank 检索 号 码 、LOCUS 
名 称 以 及 GenBank 记录 中 的 DEFINATION 字段 。 第 一 行人 >) 表 示 一 
个 新 的 序列 文件 的 开始 ， 为 标记 符 。 后 面 可 以 加 上 文学 说 明 、gi 号 
f3. GenBank 检索 号 码 、LOCUS 名 称 等 信息 。 第 二 行 序列 为 DNA 
或 集 日 质 的 标准 答 写 。 通 第 核 革 酸 和 从 号 大 小 写 均 可 ， 而 氨基 酸 则 一 
般 用 大 写字 母 。 不 过 ， 有 些 程序 对 大 小 号 有 明确 的 要 求 ， 使 用 时 需 
有 要 注 意 。 一 般 每 行 60 一 80 个 字母 。 


1.5.2. 基准 数据 库 


这 类 数据 库 中 包含 的 数据 一 般 是 真实 的 、 已 知 结构 的 集 白 质 序 
列 ， 根 据 手 工 比 对 和 上 反复 验证 得 刘 的 标准 结 未 ， 通 吊 应 用 于 训 斌 或 
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衡量 比较 不 同 生 物 信息 学 软件 的 性 能 。 例 如 以 下 的 各 数据 库 或 软件 : 
BAliBASFE 一 一 测试 重 白质 多 序列 比 对 的 准确 性 ; GAGE (genome 
assembly gold-standard evaluations) 局 通 量 测 友 结 果 用 于 组 装 基 
组 ， 测 试 组 疤 出 来 的 正确 率 ; CASP(critical assessment of protein 
structure prediction /CAFASP—— Tu Jil] 4 A i £i; Jj; CAPRI(ritical 
Tora S A 9C H B. TE H/25 
A; CAGI (critical assessment of genome interpretation) 预测 基因 组 
于 的 变 弄 会 对 生物 的 表 型 庆生 什么 影 啊 ; DREAMchallenges(http:// 
dreamchallenges.org/) 一 一 多 种 不 同 生物 信息 尝 任 务 的 比拼 ， 如 预测 
1. 基准 比 对 效 据 库 BAIIBASE 


对 于 绝 大 多 数 多 序列 比 对 算法 来 说 , 很 难 从 理论 上 给 出 所 得 结 
条 与 优化 比 对 之 间 的 俩 兰 。 当 前 多 序列 比 对 算法 众多 ， 且 生物 序列 
之 则 的 进化 关系 也 相当 复杂 , 每 种 序列 比 对 算法 都 有 它 相 对 适用 的 
范围 ， 并 非 对 所 有 序列 都 有 效 。 每 一 种 新 算法 个 提 出 时 ， 作者 都 要 
选 定 一 些 数 据 集 , 与 已 存在 的 比 对 算法 进行 准确 性 的 比较 , 这 是 评 
价 一 个 算法 优 务 的 方法 。 但 由 于 每 一 种 算法 部 有 它 目 己 的 特性 ， 
此 由 作者 目 己 选 定 数据 集 与 其 他 算法 相 比 显然 对 其 他 算法 是 不 公 
HJ. 
为 了 统一 评判 各 种 多 序列 比 对 算法 的 有 效 性 ， 法 国生 物 细胞 分 
子 基 因 组 研究 所 (Institut de Génétique et de Biologie Moléculaire et 
Cellulaire, IGBMC)I] Thompson 等 于 1999 FE T HERSE A JM 
序列 组 成 的 基准 (benchmarg) 比 对 数据 库 BAliBASE.. iz s Æ nn ds 
存储 了 1000 多 条 真实 的 重 日 质 序列 , 构成 了 142 组 参考 比 对 。 这 些 
参考 比 对 是 基于 相应 重 白 质 的 三 维 结构 而 确定 的 ， 其 可 徘 的 比 对 
区 域 被 标注 为 核心 块 。 这 些 都 已 被 多 个 程序 证 明 且 通过 手工 修正 
了 的 高 质量 的 比 对 结果 ， 并 且 有 具有 民 好 的 文档 说 明 。 这 些 参考 比 
对 义 根据 比 对 的 特点 ， 如 序列 的 长 度 、 相 似 性 以 及 插 / 失 空位 数量 
3/ 


assessment of prediction of interactions) 
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及 位 置 等 因素 而 被 划分 成 五 类 ， 泗 产 了 多 序列 比 对 的 绝 大 多 数 问 
题 。 由 于 BAlBASE 不 是 为 菏 一 其 体 比 对 算法 而 精心 设计 的 ， 
此 它 相 对 客观 ， 是 目前 用 于 评价 多 序列 比 对 算法 有 效 性 的 一 个 通 
ROLES. 

2001 年 Bahr 等 又 在 第 一 版 的 BAliBASE 的 基础 上 对 原 有 的 参 
考 比 对 做 了 进一步 修正 , 并 新 添加 另外 三 类 基准 比 对 共计 1000 多 条 
序列 ,推出 了 BAliBASE2.01.2005 年 Thompson 等 又 改进 了 第 二 版 ， 
推出 BAlHiBASE3.0， 在 原 有 的 基础 上 又 增加 了 更 多 的 序列 。 

一 般 情 况 下 ,第 用 于 出 试 比 对 算法 的 还 是 BAHBASE rpm Ti 
类 参考 比 对 。 

第 一 类 参考 比 对 是 由 少量 的 守 长 序列 构成 。 任 昔 册 个 序列 则 相 
IH] X AER ELA EG, BL SUOISD96)22 YER HYS FAI, 并且 不 存在 
大 范围 的 插 失 ， 每 一 比 对 中 都 含有 3 一 7 ZFA. 

第 二 类 参考 比 对 是 在 一 个 重 日 质 家 族 ( 友 列 间 的 亲缘 关系 较 
近 >25%ID) 序 列 中 加 入 三 条 “ 抓 儿 ” 订 列 (“orphan”sequence， 家 族 
中 杀 缘 关系 较 远 <20%JID 的 成 员 ， 但 孚 有 共同 的 折 登 )。 每 一 比 对 中 
RARA 15 条 近亲 厅 列 和 3 条“ 拆 儿 ” 订 列 。 

第 三 类 参考 比 对 中 ， 每 一 比 对 至 少 由 4 个 不 同 家 族 的 重 白 质 构 
成 ， 来 目 不 同 家 族 的 任意 两 个 序列 相同 残 基 的 百分比 <25%ID。 

第 四 类 参考 比 对 中 包含 具有 大 量 的 N/C 终 问 扩展 的 序列 。 

第 五 类 参考 比 对 中 包含 共有 大 量 的 内 部 插 / 失 的 友 列 。 

更 具体 的 BABBASE 每 一 类 比 对 数目 如 表 1.4 所 示 。 

BAIiBASE 中 提供 了 两 个 不 同 的 评分 分 值 SPS 和 TCS 及 程序 ， 
分 别 用 于 评价 与 BABBASE 中 参考 比 对 进行 比较 的 一 个 测试 比 对 算 
法 的 质量 ， 应 用 该 程序 包 可 以 直接 计算 SPS 和 TCS 分 值 ， 如 图 1.11 
所 示 。SPS 和 TCS 分 值 越 融 ， 多 序列 比 对 算法 越 好 。 这 两 个 评分 标 
准将 在 本 书 第 4 章 中 详细 介绍 。 
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短 序列 中 等 序列 
类 别 (<100 个  |(200—300 ^* 
残 基 ) 


关 1: 长 上 度 相 似 的 等 距离 友 列 


于 天 1: («289oH^] — S4 | 
—€——Á 
?类 2 queam mo | m [| 9 


- 4 


类 2， 带 孤儿 的 家 族 s | s 
类 3， 等 距离 的 分 歧 家 族 
类 4: NIC 终端 延展 on oo 
类 5: 内 部 空位 插入 ^om [| (€ 


with reference alignment in ../RU11^/BB11HH1 .msf 
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长 序列 
(>400 个 
残 基 ) 


10 


laab. ---GRGDIRRIHGRMSS5TARFFUQTSREEHRRRHPDASGUHFSEFSRECSEH 
1j45 hn MODRUKRPMNAF IUUSRDOQRREMALENHPRMRH- -SEISEQLGYUQ 
1k93 f MEKEKLEKEHPDFPEKPLTPYFRFFHEERAK'TAKLHPEMSN- -LDLTKILSKKE 
élef f ce HH IKKPLNAFHML'MEEHRAHUUAESTLKES- -AAINQ ILGRR 


11111111111111111111111111..88B881111111111 


WHETHSRRERGEFEDMAaAEADRARTEREHRTTIPPE---GE 


HWHEMLTEAEEVUPFFQüEAQELQAOMHREEVPNVYEVRP RREAEMLPE 
YKELPEKKEMEKY IQDFÜREKUEFERNLARFREDH- --PDLIGQNAEKE 


WHALSREEDAKYSYELARKERQLHMOL'SPGUSARDNS'GKEERRERREE 


1111111111111111111111111111111111...HBH....... 


SP szcore- H.961 


TC score- H.9ZHB 
auta ../BB11881 org.msf 8.961 8.928 


图 1.11 BALIBASE 自 带 SPS 和 TCS 程序 包 baliscore 运行 界面 


2. 其 他 和 绰 日 质 友 列 比 对 基准 数据 库 


在 应 用 基准 数据 库 测 试 评估 多 序列 比 对 算法 性 能 时 ， 除 了 
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BAHBASE 数据 库 , Ve HUBS S EIU E T4) 23 38 FEAT, ABCTE 29 dis VES Z 
据 库 ， 如 HOMSTRAD 同 源 结构 比 对 数据 库 (http://www-cryst.bioc. 
cam.ac.uk/homstrad/)、SMART 注释 了 的 重 白 质 结构 域 序 列 (http:// 
smart.embl-heidelberg.de/), Pfam E AMEI Æ SCOP 由 专家 
ZH m E E E a R E SABmark JF 7j] EE Xt J& 78 (http:// 


bioinformatics. vub.ac.be). Prefab3.0, Rose version 1.3 等 。 


1.6 ZA HH 


1.6.1 搜索 工具 


一 般 在 多 序列 比 对 之 前 , 首先 要 在 数据 库 中 搜索 相对 应 的 序列 ， 
这 里 主要 介绍 EBI 的 FASTA 工具 和 NCBI 的 BLAST 工具 ， 它 们 是 
当 角 最 常用 的 两 大 数据 库 搜索 工具 。 


1. FASTA 工具 


FASTA 是 FAST-ALL W445, 是 由 Lipman 和 Pearson F 1985 
年 提出 的 。 其 基本 思路 是 : 

(1) 识别 与 竺 得 序列 相 匹 配 的 很 短 的 序列 片段 ， 称 为 k-tuple。 
使 用 者 可 以 改变 ktup 18, — EAE 8 A UTAK ktup 默认 值 是 2， 
DNA FFZJIf] ktup 默认 值 是 6。 

(2) 运算 是 寻找 与 最 初 识别 的 单词 匹配 的 扩展 ， 试 图 找到 序列 
的 无 空位 联 配 ， 该 联 配 含有 珊 密 度 的 最 初 识 别 的 蛙 词 匹配 ， 然 后 再 
把 这 些 联 配 加 入 到 蜗 分 值 的 有 空位 的 联 配 中 。 最 后 在 识别 了 序列 间 
的 高 分 值 联 配 后 ， 通 过 动态 规划 联 配 全 部 序列 高 分 区 域 ， 得 出 最 终 
BK RIO e Hz HE e 

FASTA 可 用 于 核酸 和 得 白质 序列 的 快速 序列 比 对 数据 库 搜 索 。 
其 版 本 在 不 断 更 狐 升 级 ， 可 以 下 载 使 用 ， 也 可 以 在 线 进行 比 对 ， 最 
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新 版 本 是 FASTA3 软件 包 ， 主 要 包括 FASTA, FASTF. FASTS, 
FASTX/Y、TFASTX/Y， 如 表 1.5 所 示 。 


表 1.5 FASTA3 软件 包 相 关内 容 


程序 查询 序列 类 型 数据 库 类 型 
DNA 
FASTA DNA, AM m 
ff AH HR 
TFASTX. TFASTY E AH pi DNA 


FASTS, TFASTS RIE k E 


FASTF. TFASTF HH S BG 9) 


随 着 各 生物 数据 库 中 序列 数量 的 快速 增长 ，FASTA 工具 的 搜索 
速度 越 来 越 不 能 满足 用 户 的 要 求 , 因此 它 逐 步 被 一 种 速度 更 快 的 搜索 
工具 BLAST 所 替代 。 


2. BLAST 工具 


BLAST 是 Basic Local Alignment Search Tool 的 缩写 ,是 Altschul 
于 1990 年 提出 的 。 其 基本 思路 是 : 

(D) FRINN ER- REBRE HKEE WHE. RA 
序列 的 W REE 3, DNA 序列 的 W RME 11. HE A 
a WM TI. fH—RB HS T. 

Q) 寻找 与 最 初 识别 的 单词 匹配 的 扩展 。BLAST 将 个 别 单 词 匹 
配 必 展 ， 征 到 联 配 总 分 值 从 最 局 全 跌落 一 段 数 星 ， 产 生 无 空位 的 联 
配 。 改 进 后 的 BLAST 程序 允许 空位 的 插入 。 
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BLAST 是 当前 应 用 最 广泛 的 序列 相似 性 搜索 工具 ,研究 BLAST 
的 最 和 初 目的 是 改善 FASTA 算法 性 能 ,通过 寻找 更 小 更 好 的 热点 ， 提 
局 计算 速度 .为 了 进一步 提高 数据 库 搜 索 速 度 , BLAST 增加 了 限制 ， 
即 在 序列 的 局 部 比 对 中 不 包括 宇 缺 字符 。BLAST 包含 五 个 程序 和 大 
于 个 相应 的 数据 库 ， 分 别针 对 不 同 的 得 询 序 列 和 要 搜索 的 数据 库 交 
型 ， 如 表 1.6 所 示 。 其 中 翻 详 的 核算 库 指 搜索 比 对 时 会 把 核酸 数据 
FAT A H BEHI i EENE A Fe HE ~ E A EJT YI 

k 1.6 BLAST 软件 包 相 关内 容 


查询 序列 类 型 | 数据 简 述 


适合 寻找 具有 远 源 进化 关系 的 
BLASTP ti EA Jot 日 质 

匹配 序列 

适合 寻找 分 什 较 高 的 匹配 , T3 
BLASTN 

TH FRKA 


适合 新 DNA 序列 和 EST 序 列 的 
分 析 


— EE 适合 寻找 数据 库 中 尚未 标注 的 
TBLASTN | EAM DNA( 翻 译 ) | | 
编码 区 


TBLASTX | DNA( 翻 译 ) DNA( 翻 译 ) | 适合 分 析 EST 序列 


E 
k} 


BLASTX | DNA( 翻 译 ) 蛋白 


1.6.2 第 用 的 在 线 多 序列 比 对 工具 


通过 数据 库 搜 索 工 具 收 集 生 测 序列 后 ， 接 下 来 要 进行 多 序列 
比 对 ， 有 很 多 学 者 根据 多 序列 比 对 的 原理 开发 了 非常 方便 好 用 的 
比 对 工具 ， 如 MAFFT、CLUSTALW、T-COFFEE 等 ， 应 用 这 些 比 
对 工具 能 快速 地 得 到 较 好 的 比 对 结果 ， 成 为 当前 多 序列 比 对 最 第 用 
的 比 对 手段 。 在 EBI 官网 中 http:/www.eb1. ac.uk/Tools/msa/) 提 供 了 了 
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这 些 常用 比 对 工具 对 应 的 开源 在 线 多 序列 比 对 工具 ， 其 中 有 Clustal 
Omega、MAFFT、T-Coffee、MUSCLE 等 工具 ， 界 面 如 图 1.12 所 
示 。 相 对 于 线 下 工具 ， 这 些 在 线 比 对 工具 的 版 本 更 新 及 时 ， 更 为 
实用 。 


Multiple Sequence Alignment 


*- Feedback 


Multiple Sequence Alignment (M5SA) ix generally the alignment of three or more biological s2quences (protein or nucleic acid) of similar length. From the output, 
homology can be inferred and the evolutionary relationships between the sequences studied. 


By contrast, Pairwise Sequence Alignment tools are used to identify regions of similarity that may indicate functional, structural and/or evalutionary relationships 
between two biological sequences. 


Clustal Omega 9 MUSCLE 9 
Mew MSA tool that uses sseded guide trees and HMM profile-prcfile Accurate MSA tool, especially good with proteins. Suitable for medium 
techniques to generate alignments. Suitable for mediurn-large alignments. alignments. 


Very fast MSA tool that concentrates on local regions. Suitable tor large 
alignments. 


+ Launch MUSCLE 


Transform a Sequence Similarity Search result inte a Multiple Sequence 
Alignment or reformat a Multiple Sequence Alignment using the MVview 


program. 


A Launch MVlIew 


MEA tool that uses Fast Fourier Transforme. Suitable for medium-large 
aligaments. L 


Consistency-based M5A tool that attempts to mitigate the pitfalls of 


mreanrerenia alinnrnant mathade Eurt=hls far ernall slinrnraante 


向 用 比 对 工具 


3, Launcn MAFFT 


图 1.12 


图 1.13 所 示 为 MAFFT 工具 进行 在 线 序列 比 对 的 示例 。 


EMBL-EBI 


MAFFI 


Training About us 


Input form : Web services : Felo & Documentation : 9» Feedback 


«share 


Multiple Sequence Alignment 
MAFFT (Multiple Alignment using Fast Fourier Transform) is a high speed multiple sequence alignment program. 


We have recently changed the default parameter settings for MAFFT. Alignments should run much more quickly and larger DNA alignments 
can be carried out by default. Please click the More options! button to review the defaults and change them if required. 


STEP 1 - Enter your input sequences 


图 1.13 


MAFFT € Hr LH 
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在 STEP1 中 粘贴 要 比 对 的 序列 ， 或 者 单 击 “ 浏 
择 要 比 对 的 序列 ， 如 图 1.14 所 示 。 


STEP 2 - Set your Parameters 


STEP 3 - Submit your job 


C] Be notified by email (Tick this box if you want to be notified by email when the results are available) 


图 1.14 STEPI 


在 STEP2 中 选择 机 输出 的 格式 。 
在 STEP3 中 单 击 Submit 按钮 ， 即 出 现 序 列 比 对 的 结果 ， 如 


图 1.15 所 示 。 


MAFFT 


Input form ; Web services : Help & Documentation 


TL H Pk NE 


Results itr job maffi- i201 60509-013128-0883-881406179-pg 


hind: Result Summary | Guide Tree | Phylogenetic Tree | Submission Details 


Download Alignment File | Send to Clustalw2 Phylogeny 


»laab 
GE------ GDEKKTRGEMS 和 FSERKCSERWEIMSAR 
EEKGKFEDMAEKRTEARYEREME------TYIEERGZ------- 

»1j i -A 

Ml------DRVERE- EE P ———— -SEISKQLGYQWEMLIEA 

ERWPFFQEAQKLOAMHRERY - HLEK 

>2lef_A 

MBE-------- IKKP---LNAFMLYMKEMRANVVAESILEES--AAINQILGRRWRALSRE 
EQAKYYELARKERQLHMQLYEGWSARDHYGKKEKRKRE---K 

»-1k99 À 


MEKLEKRHEDFEEKE-- INIT Len PEMSN--LDLIKILSKKYRKELPEK 


KHMEKYIQDFQRERQEFE --RFREDHPDLIQNAKK 


K| 1.15 STEP3 


另外 ，NCBI t fiiEzE TRE EIFE TE. COBALT(http//Awww. 
ncbi.nlm.nih.gov/tools/cobalt/óre cobalt.cgi), HA mink] 1.16 所 示 。 


2 #15 生物 多 序列 比 对 i 


Cobalt Constraint-hbasecd Multiple Protein Alignment Too 


COBALT computes a multipla protein &equancae alignment using eonsenred domain and local sequence similarity information. &3i Reset paga 


图 1.16 COBALT 多 序列 比 对 工具 


1.7 rpm A 


在 GenBank Z5 PE P ido S KREA DS EX AE DS 28 M I] SUE 
用 这 些 数 据 就 可 以 进行 多 序列 比 对 的 计算 与 分 析 。 下 面 介绍 儿 个 典 
型 的 分 析 瑟 应 用 例子 。 


1. 线粒体 基因 组 的 比 对 分 析 与 应 用 
线粒体 在 真 核 生物 细胞 内 普遍 存在 ， 且 不 同 生物 体 的 线粒体 3 


因 组 的 长 度 非 常 接 近 。 在 GenBank 数据 库 内 保存 了 上 干 种 线粒体 的 
基因 组 数据 ， 对 线粒体 基因 组 做 MSA 计算 与 分 析 是 了 解 这 些 生物 体 


进化 过 程 的 重要 手段 。 
2、 关 于 流行 病 基因 组 的 比 对 分 析 与 应 用 


流行 疾病 病毒 基因 组 的 闫 型 很 多 ， 对 这 些 病毒 基因 组 作 比 对 分 
析 可 以 了 解 这 些 病毒 基因 组 在 传播 过 程 中 的 变 开 状况 。 对 流行 病 病 
毒 基因 组 的 比 对 分 析 有 : 

(D) XT SARS 病毒 的 比 对 分 机 。 在 GenBank 数据 库 中 记录 的 
SARS 病毒 组 的 MSA 规模 是 108x30kbp。 通过 SARS 病毒 基 
MSA 可 以 了 解 到 从 果子 狸 到 人 ， 以 及 人 的 早 中 晚期 的 基因 突 


E 上 篇 多 序列 比 对 基础 篇 ， 


况 ， 万 其 十 在 从 未 于 狸 到 人 ， 以 及 人 在 于 中 晚期 传播 时 及 生 较 大 规 
模 条 上 友 时 的 基因 突变 特征 。 

Q) 天 于 HIV- 工 病毒 的 比 对 分 机。HIV- 工 病毒 征 一 种 义 洲 病 的 
病毒 ， 和 它 的 病毒 效 据 不 仅 年 代 长 ， 而 且 分 布地 区 广 ， 出 量 所 得 到 的 
数据 还 有 潜伏 期 的 长 息 等 回 题 ， 因 此 对 它们 的 分 析 要 复 末 得 多 。 对 
HIV- 开 病毒 有 专门 的 数据 库 ， 对 它们 作 比 对 分 析 的 问题 也 很 多 ， 如 
传播 的 途径 与 方式 问题 ， 从 境外 到 国内 不 同 地 区 的 传播 过 程 的 途 竹 
分 析 以 及 不 同 的 传播 方式 (如 性 交 、 吸 毒 、 血 液 等 ) 的 分 机 等 ，HIV- 
[[ 病毒 的 类 型 与 测定 时 间 的 分 析 。 对 HIV- 芽 病毒 的 分 析 还 可 以 分 解 
为 对 多 种 不 同类 型 的 HIV- 卫 病 奎 ,以 及 测定 时 病毒 洲 伏 期 时 间 长 起 
的 分 析 等 。 

(3) 其 他 类 型 的 流行 病 ， 如 流感 、 禽 流感 等 。 


1.8 其 他 说 明 


1.8.1 多 序列 比 对 算法 存在 的 问题 


多 序列 比 对 算法 主要 存在 以 下 三 大 问题 : 

(1) 多 序列 的 比 对 问题 。 序 列 比 对 问题 目前 所 存在 的 问题 就 古 
优化 双 序 列 比 对 算法 应 用 于 多 序列 比 对 ， 该 问题 在 计算 生物 学 与 生 
物 信 息 季 中 仍 补 列 为 未 解决 的 重大 问题 或 非 多 计算 问题 ， 有 的 文献 
把 多 序列 比 对 列 为 NP 完全 问题 ， 计 算 复 杂 度 为 双 指 数 问题 ， 也 驶 
是 计算 复杂 度 为 0(2”)， 其 中 m 为 比 对 序列 的 重 数 ，n 为 序列 长 度 。 
因此 目前 由 以 上 序列 比 对 算法 改 民 的 多 序列 比 对 只 能 在 小 规模 上 进 
行 ， 这 与 目前 所 出 现 的 庞大 数据 是 极 不 相称 的 ， 如 何 构造 多 序列 比 
对 的 快速 复 法 是 计算 机 生物 学 与 生物 信息 学 中 的 重大 问题 。 

(2) 比 对 结 来 的 分 析 问 题 。 同 源 序列 比 对 的 根本 目标 是 确定 它 
们 的 进化 演变 关系 ， 在 生物 学 界 常 常 通过 序列 比 对 来 构造 进化 树 ， 
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并 由 此 来 确定 它们 的 进化 关系 。 但 是 ， 比 对 与 进化 的 关系 到 底 如 何 ， 
如 何 由 大 量 序 列 的 比 对 结果 来 构造 进化 树 的 逻辑 过 程 是 生物 学 家 
所 关心 的 问题 。 一 个 典型 的 问题 是 ， 在 现 有 的 比 对 理论 中 ， 把 寻找 
凡 分 最 小 (或 得 分 最 多 ) 的 比 对 结果 看 作 序 列 突变 与 进化 的 结果 ， 但 
是 求 如 分 最 小 的 比 对 结果 与 序列 突变 的 结果 并 不 完全 一 致 。 因 此 ， 
如 何 由 序列 比 对 来 确定 序列 的 突变 与 进化 关系 , 如 何 建 立 它们 变化 
关系 的 数学 模型 与 分 析 规 则 是 序列 比 对 理论 中 不 可 缺少 的 一 个 重要 

(3) 不 同比 对 算法 的 效果 分 析 问 题 。 目 前 无 论 双 序列 还 是 多 序 
列 的 比 对 都 有 大 量 算法 的 出 现 ， 另 外 ， 对 这 些 比 对 算法 结果 也 有 许 
多 度量 性 的 指标 进行 评价 与 考核 ， 如 计算 复杂 度 ( 时 间 复 杂 度 与 空间 
复杂 上 度 )、 比 对 相似 度 、 搜 索 相 似 度 等 ， 因 此 对 这 些 不 同 的 比 对 算法 
如 何 建立 它们 的 考核 体系 尤为 重要 。 目 前 ， 对 生物 信息 学 的 考核 还 
是 以 进行 实际 测试 计算 为 最 一 般 的 考核 方法 ， 要 对 所 设计 的 比 对 算 
法 的 各 项 度量 指标 做 出 理论 上 的 说 明 是 一 个 十 分 困难 的 问题 ， 因 为 
这 涉及 序列 突变 的 总 体 或 局 部 模型 问题 , 这 是 一 个 十 分 复杂 的 问题 ， 
它 不 仅 序列 数据 庞大 ， 而 且 突变 现象 干 变 万 化 ， 所 以 不 可 能 用 一 种 
或 几 种 模型 就 能 把 它们 概况 说 明 。 


1.8.2 多 序列 比 对 算法 的 运算 指标 


近 儿 年 内 有 许多 多 重 序列 的 比 对 问题 十 分 活跃 ， 许 多 算法 、 软 
件 包 与 比 对 结果 大 量 出 现 ， 这 些 算法 或 软件 包 剖 是 在 次 优 解 的 意义 
下 实现 计算 。 因 此 ， 对 于 不 同 的 多 重 序 列 比 对 算法 的 好 坏 需 要 比较 
其 多 种 运算 指标 。 多 重 序 列 比 对 算法 的 主要 运算 指标 有 : 

(D) LOSS. mE BOSE A 的 长 度 与 重 数 的 要 求 ，MSA 
算法 已 基本 上 实现 了 无 规模 的 限制 。 

(2) 运算 速度 。 理 想 状 态 的 运算 速度 了 驶 是 实现 Onn) 的 比 对 计 
算 复 杂 度 , 其 中 m 和 半分 别 是 多 重 序 列 的 平均 长 度 与 重 数 ,， MSA 算 
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法 可 基本 上 实现 设计 算 复 琳 上 度 。 

G) 优化 指标 的 讨论 。 优 化 指标 是 多 重 序列 比 对 复 法 中 的 一 个 
天 键 问题 ， 建 立 多 重 序 列 比 对 的 优化 指标 体系 实际 上 十 关 系 到 如 何 
理解 多 重 序列 比 对 的 优化 问题 。 


1.8.3 多 序列 比 对 算法 的 展望 


近年 来 ， 随 着 人 们 对 生物 序列 认识 的 逐渐 深入 ， 越 来 越 多 的 梨 
日 质 三 维 结 构 及 其 功能 和 被 人 们 所 认识 ， 新 的 生物 序列 的 结构 信息 、 
功能 信息 、 进 化 关系 等 也 相应 加 入 到 序列 比 对 模型 中 。 多 序列 比 对 
方法 的 研究 现状 表明 ， 该 领域 的 相关 研究 十 分 活跃 ， 并 且 取 得 了 已 
大 的 进展 ， 其 方法 也 趋 于 成 熟 ， 但 随 看 大 量 生 物 数 据 的 不 断 加 入 ， 
多 序列 比 对 仍然 是 进行 生物 序列 分 析 的 基础 ， 在 此 领域 仍 有 许多 问 
题 伍 得 进一步 的 拧 索 。 

(1) 建立 更 能 准确 反映 生物 数据 特性 的 多 序列 比 对 数学 模型 ， 使 
每 比 对 结果 更 加 精确 。 

(2) 改进 现 有 的 多 序列 比 对 算法 ， 加 快 问题 的 求解 速度 。 

(3) 结合 渐进 比 对 法 和 碗 代 比 对 法 的 优点 ， 提 出 能 够 元 服 “ 局 
部 最 小 化 ”问题 的 快速 多 序列 比 对 算法 。 

(A 比 对 算法 的 并 行 化 。 由 于 计算 资源 的 限制 和 问题 求解 规模 
的 逐步 增 大 ， 因 此 和 震 要 实现 算法 的 并 行 化 。 

(5) 算法 性 能 分 机 。 由 于 多 序列 比 对 问题 的 复杂 性 较 局 ， 算 法 
性 能 分 析 与 评价 方法 的 研究 对 于 算法 的 改进 和 优化 具有 非 利 重要 的 
意义 ， 因 此 需要 研究 不 同 条 件 和 背景 下 的 算法 性 能 分 析 方 法 。 


1.9. S 


为 了 详细 拍 述 生物 多 序列 比 对 问题 ， 本 革 从 一 些 相 关 的 概念 
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和 知识 引入 ， 介 绍 了 多 序列 比 对 的 基本 原理 、 方 法 、 常 用 数据 库 
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2.1 XE fb R iX 


AEMILIA E AM 28 EMI HAE EA BX3oaepumu Js pL 
索 算 法 ， 主 要 包括 以 下 几 种 不 同 的 方法 : 遗传 算法 (GA) 和 遗传 规划 
(GP)、 进 化 策略 (ES)、 进 化 规划 (EP)。 

粒子 群 优化 (PSO) 算 法 和 量子 粒子 群 优化 (QPSO) 算 法 是 近年 来 
发 展 起 来 的 一 种 新 的 进化 算法 。PSO 算法 和 QPSO 算法 属于 进化 算 
法 的 ， 和 踪 传 算法 相似 ， 它 也 是 从 随机 解 出 发 ， 通 过 从 代 寻找 最 优 
解 ， 它 们 也 是 通过 适应 度 来 评价 解 的 品质 。 但 是 它们 比 遗 传 算 法 规 
则 更 为 简单 , 它 没 有 遗传 算法 的 ”交叉 ”(crossoverD) 和 “变异 ”mutatiom) 
操作 。 它 通过 追随 当前 搜索 到 的 最 优 值 来 寻找 全 局 最 优 。 
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遗传 算法 是 一 种 借鉴 基因 遗传 机 理 和 达尔 文 适 者 生存 的 自然 
选择 原则 ， 通 过 模拟 群体 自然 进化 过 程 的 随机 搜索 算法 。1975 年 ， 
Holland 出 版 了 专著 《自然 系统 和 人 工 系统 的 适 配 》。 他 在 该 书 中 首 
次 阐述 了 遗传 算法 的 基本 理论 与 实施 方法 。 遗 传 算法 在 解决 复杂 的 
全 局 优化 问题 (如 多 峰 目 标 函 数 或 不 规则 搜索 空间 ) 方 面 ， 因 其 具有 
鲁 棒 性 ， 适 于 并 行 计 算 ， 很 快 就 得 到 了 广泛 的 应 用 。 

为 了 使 用 遗传 算法 ， 首 先 需要 对 问题 进行 编码 。 编 码 是 对 问题 
可 行 解 的 遗传 表示 ， 编 码 的 好 坏 直 接 影响 到 遗传 算法 应 用 的 成 败 。 
通常 采用 固定 长 度 的 二 进 制 编码 ， 通 过 编码 组 成 初始 群体 后 ， 遗 传 
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操作 的 任务 束 是 对 群体 的 个 体 按照 它们 对 环境 适应 度 (适应 上 度 评 估 ) 
施加 一 定 的 操作 ， 从 而 实现 优胜 务 汰 的 进化 过 程 。 从 优化 搜索 的 角 
度 而 言 ， 遗 传 操 作 可 使 问题 的 解 一 代 又 一 代 地 优化 ， 并 远 进 最 优 解 。 

壮 传 操作 包括 以 下 三 个 基本 遗传 算 子 (genetic operator): 选择 、 
交叉 和 变异 。 

(1) 选择 : 染色 体 的 适应 上 度 起 局， 其 航 选 择 的 机 会 驶 越 多 ， 可 
采用 轮 盘 赠 方 式 来 实现 选择 。 选 择 过 程 的 目的 是 从 当前 群体 中 选 出 
优良 的 染色 体 。 

(2) AE X: 对 被 选 出 的 优 民 染色 体 进 行 交 又 操作 ， 交 叉 操 作 是 
组 合 父 母 有 价值 的 遗传 信息 ， 有 共有 改变 遗传 模 陈 的 功能 ， 和 它 由 交叉 

(3) 变异 : 交叉 操作 后 再 进行 变异 操作 ， 变 寞 操作 的 目的 是 挖 
据 种 群 中 个 体 的 多 样 性 ， 克 服 可 能 陷入 局 部 最 优 解 的 烽 病 ， 它 由 变 
MESE VL T o 


2.1.2 遗传 规划 


遗传 规划 (GP) 的 思想 是 由 Stanford 大 学 的 Koza 在 20 世纪 90 年 
代 初 提出 ， 并 于 1991 年 出 版 了 专 着 Genetic Programming. 

GP 算法 每 一 代 和 群体 中 的 个 体 均 采 用 一 种 动态 的 树 状 结构 (如 图 2.1 
Pr). HH xx EH HT Z3 CRT ER SCR ZH». ES a EH LAN AE ERUNT Ts E 
MJ. MAARATA ERER, JÉRK xxx. K| 2.1 
形成 的 表达 式 为 (x 一 2)+ cos(y) *3.5687 。 每 个 树 状 结构 对 应 看 一 个 
计算 机 程序 。 叶 结 点 中 的 变量 相当 于 计算 机 程序 的 输入 变量 ， 而 树 
结构 所 代表 的 表达 式 的 值 即 为 计算 机 程序 的 输出 值 。 

GP 的 基本 思想 是 : 随机 产生 一 个 适合 于 给 定 问 题 环 境 的 急 始 
群体 ( 倪 始 解 )， 即 问题 的 搜索 空 旧 ， 构 成 群体 的 个 体 剖 有 一 个 适应 
BE. 依据 适 者 生存 原则 ， 用 遗传 得 子 处 理 得 到 高 适应 度 的 个 体 , 产 
生 下 一 代 群 体 ， 如 此 进化 下 去 ， 下 到 在 条 一 代 得 到 给 定 回 题 的 解 或 
近似 解 。 
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图 2.1 3E fe AX] ME S MJ 


BARRIS ARERIA RRIA RS 主要 有 有 选择 、 交 义 和 变 开 三 
TEAR T. 

(1) 选择 : 选择 操作 的 目的 是 把 当前 群体 中 适应 度 较 局 的 个 体 
按照 茶 种 规则 遗传 到 下 一 代 群 体 中 。 一 般 而 言 , 个 体 的 适应 度 越 高 ， 
伏 选 撕 复 制 的 机 会 束 越 大 。 运 应 度 的 选择 方法 主要 有 辊 人 盘 财 选择 
法 、 随 机 表 历 抽样 法 、 局 部 选择 法 和 锅 标 冤 选 择 法 等 。 轮 盘 赌 选择 
法 古 最 基本 也 是 最 第 用 的 选择 方法 。 

Q) EX: 交叉 操作 的 目的 是 增加 群体 中 的 狐 个 体 ， 从 而 扩大 
群体 的 搜索 空间 。 区 义 时 ， 每 个 父 代 个 体 随 机 选择 一 个 交换 点 ， 于 
皇 便 产生 一 个 以 交换 点 为 根 的 子 树 ， 议 子 树 包括 交换 氮 以 下 的 所 有 
子 树 ， 此 子 树 称 为 区 换 段 。 有 时 一 个 交换 段 是 一 片 叶子 。 将 第 l1 
父 代 个 体 删 除 其 交换 段 后 ， 再 把 第 2 个 父 代 个 体 的 交换 段 插 入 其 交 
换 扣 处， 这 样 束 产 生 了 上 第 1 个 子 代 个 体 ， 同 样 操作 可 产生 第 2 个 子 
代 个 体 。 

(3) EF: 变 开 的 目的 古 维 持 群 体 的 多 样 性 。 但 是 遗传 规划 中 
区 开外 子 征 次 要 鼻 于 。 因 为 一 个 个 体 由 图 数 集 和 终止 符 集 组 成 ， 睦 
以 变异 也 分 函数 变异 和 终止 符 变 异 两 种 形式 。 

KH GP 算法 解决 问题 时 需要 确定 以 下 五 个 元 系 : 

(1) 终端 结 扣 。 由 输入 变量 和 音量 构成 。 
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(2) KAN. EEG ^R. -*. D. BERAR, cos. 
tan. exp. log). 4HAKae WA. AKTE MESI SETA Be 

(3) 适应 度 (fitness): 适应 度 评 价 函 数 (该 性 能 代表 个 体 解 决 目 标 
问题 的 能 力 )。 种 群 中 每 个 个 体 都 会 依照 适应 度 评 价 函 效 算 出 一 个 适 
NLBETH e 

(4) 算法 控制 参数 (algorithm controlling parameter). GE FUIT] 
大 小 ， 遗 传 操作 如 区 叉 、 复 制 、 变 异 的 概 座 。 

(5) 2€ iE Z& f/F (terminate condition). 2€ 1E 2& fF 26$ Ze: TU 76 258 4E 
的 ， 可 以 是 最 大 进化 代数 或 要 求 的 最 小 适应 度 值 。 

这 五 个 要 寺中 ， 前 三 个 雇 定 了 算法 的 搜索 守 国 ， 而 后 两 个 则 次 
定 了 算法 的 质量 和 速度 。 


2.1.3 dE (LR ME 


进化 策略 是 最 早出 现 的 一 种 进化 算法 , 由 Rechenberg 和 Schwefel 

T 1964 年 为 优化 物体 形状 参数 而 提出 。 它 用 传统 的 实 型 数 表 达 问 题 ， 

X^" = X'+ N(0,0) (2.1) 
APF, X 是 用 实数 表示 的 第 t RAE: XU 是 用 实数 表示 的 第 Hl 
AV S N(0,0) 是 独立 的 随机 数 ， 服 从 正 态 分 布 ， 后 者 的 数学 期 户 
为 0， 标准 堪 为 o。 

式 (2.1) 表 明 ， 狐 一 代 的 个 体 了 是 在 父 代 个 体 JA EH 
一 个 随机 量 N(0,0) ， 因 此 每 个 个 体 由 瑟 及 Ga 两 个 变量 决定 ， 是 一 个 
二 元 组 (X,o )。 

进化 策略 中 个 体 的 进化 主要 采用 突变 ， 并 对 随机 量 的 标准 过 进 

M EMEN Q2) 
X —X--N(0,0) 
式 中 ，(K,0) 为 父 代 个 体 ，(X', 0 ) 为 子 代 个 体 。 
56 
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也 就 是 说 ， 狐 一 代 耶 是 在 上 一 代 的 对 基础 上 添加 一 个 微小 的 随 
机 量 N(0,0^ . 后 者 服从 数学 期 望 为 0、 标准 堪 为 oo 的 正 态 分 布 。 新 
一 代 的 标准 差 o 叉 是 在 上 一 代 标 准 差 o 的 基础 上 乘 以 一 个 微小 的 
随机 量 exp(N(0,1))。 

在 进化 策略 中 ， 产 生 新 个 体 的 男 一 种 方法 是 重组 ， 它 相当 于 踪 
传 算法 的 交叉 。 最 徇 单 的 重组 是 随机 交换 两 个 个 体 的 ,及 0o.。 

在 进化 策略 中 ， 复制 隐 含 在 选择 中 。 父 代 群 体 所 有 的 4 个 个 体 ， 
经 过 突变 、 重 组 后 生成 4 个 独 个 体 ， 然 后 再 从 这 些 群 体 中 ， 按 照 适 
应 度 大 小 选择 4 个 优 民 个 体 组 成 下 一 代 群 体 ， 从 而 体现 个 体 在 竞争 
中 的 优胜 劣 汰 原则 。 同 样 ， 进 化 策略 也 是 一 个 反复 迭代 的 过 程 ， 它 
从 随机 产生 的 初始 群体 出 发 ， 经 过 突变 、 重 组 (交换 )、 选 择 等 进化 
操作 ， 改 进 和 群体 的 质量 ， 膛 渐 得 到 最 优 解 。 


2.1.4 进化 规划 


20 世纪 60 年 代 中 期 , Fogel 等 为 有 限 状 态 山 的 演化 提出 进化 规 
米 求解 巴 测 问题 ， 其 基本 思想 是 源 于 对 目 然 界 中 生物 进化 过 程 
的 模拟 。 进 化 规划 与 进化 东 略 几乎 同时 出 现 ， 并 平行 友 展 ， 最 早 的 
进化 案 略 上 只 及 用 单个 个 体 ， 而 最 早 的 进化 规划 则 十 采用 多 个 个 体 组 


进化 规划 也 是 用 实 型 数 表 达 问 题 ， 其 表达 形式 为 
y >y a F(X) . N(0, 1) (2.3) 


AP, X 是 用 实数 表示 的 第 t 代 旧 个 体 ; 是 用 实数 表示 的 第 1 
代 狐 个 体 ，N(0,1) 古 独立 的 随机 数 ， 服 从 (0,1) 标 准 正 态 分 布 ; f(X') 
zE X HEB. 
早期 的 进化 规划 ， 只 用 上 式 实 现 个 体 的 不 断 变 化 ， 它 相当 于 突 
变 、 后 期 的 进化 规划 ， 也 仿效 进化 案 略 引入 方 友 的 调整 作用 ， 妈 
en 


24 
X'260-«4o - N(0,1) uis 
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在 进化 规划 中 ， 没 有 重组 或 区 换 ， 但 有 选择 ， 它 从 4 个 父 代 个 
体 及 个子 代 个 体 中 择优 选取 个 优 民 个 体 组 成 下 一 代 群 体 。 


2.1.5 粒子 群 优化 算法 


群体 智能 (swarm intelligent，SD 算 法 始 于 20 世纪 90 FARRU, E 
要 是 受 目 然 乔 生物 群体 所 表现 出 智能 现 角 的 司 肥 ， 通 过 模拟 储 会 性 
生物 的 群体 行为 ， 而 捉 出 的 一 种 随机 优化 算法 。 和 群体 和 镶 能 的 核心 是 
由 众多 简单 个 体 组 成 的 群体 能 够 通过 相互 之 间 的 简单 合作 来 实现 某 
一 较 复 杂 的 功能 ， 完 成 未 一 较 复 杂 的 任务 。 所 以 群体 智能 可 以 在 没 
有 集中 控制 并 且 缺 少 全 局 信息 和 模型 的 前 所 下 ， 为 解决 复 淋 的 分 布 
式 回 题 所 供 了 了 可能。 典型 方法 有 Dorigo M $i WE EL UL 
Kennedy J 与 Eberhart R.C 提出 的 粒子 群 优化 算法 (PSO)。 

蚁 群 算法 (ant colony optimization，ACO)， 又 称 蚂蚁 算法 ， 是 一 
种 用 来 在 多 中 寻找 优化 路 径 的 概率 型 算法 , 由 Marco Dorigo F 1992 
年 在 他 的 博士 论文 中 所 出 ， 其 元 车 来源 于 曲 蚁 在 寻找 食物 过 程 中 友 
现 路 径 的 行为 。 可 以 将 蚁 群 在 竞 食 过 程 中 的 生物 行为 拍 述 如 下 : x 
一 个 蚂蚁 群体 中 有 nn Hui, ge^ mi dm BERE A 处 的 食物 搬运 到 巢穴 
B 处 。 每 只 蚂蚁 在 运动 中 会 在 所 经 过 的 路 任 释 放 一 种 特殊 的 分 汉 
物 一 一 信息 票 ， 并 且 通 过 信息 系 来 实现 个 体 之 间 的 “通信 ”。 友 现 
并 且 运 回 食 物 的 蚂蚁 a 38 Wo f EH ao. ai “YR” az AÀ A Ah 
搬运 食物 回 果 穴 B 处 ， 即 将 信息 传 给 对 方 。 在 整个 过 程 中 ， 每 只 
曲 蚊 的 行动 是 随机 、 并 行进 行 的 。 开 始 的 时 候 ， 蚂 蚁 的 搬运 是 无 厅 
的 ， 但 经 过 一 段 时 间 以 后 ， 由 于 各 个 个 体 之 则 的 通信 便 运 渐 形 成 了 
有 订 的 搬运 、 扒 放 等 群体 活动 。 

由 此 可 匈 ， 凡 和 群 算 法 的 基本 思想 是 模拟 蚂蚁 在 寻找 食物 源 时 ， 
在 其 走 过 的 路 上 和 灵 放 “信息 妹 ( 随 看 时 间 的 推移 该 物质 会 逐渐 的 
太 )”， 选 择 路 径 的 概率 与 这 条 路 径 上 量度 成 正比 。 当 路 径 上 通过 的 
蚂蚁 越 来 越 多 时 ， 其 留 下 的 信息 双轨 迹 也 越 来 越 多 ， 蚂 蚊 选 拌 该 路 
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径 的 概率 也 越 高 ， 增 加 了 该 路 径 的 信息 素 强 度 。 强 度 大 的 信息 素 会 
吸引 更 多 的 蚂蚁 ， 从 而 形成 一 种 正 反 馈 机 制 。 通 过 这 种 正 反 馈 机 人 制 ， 
蚂蚁 最 终 可 以 发 现 最 短路 径 。 当 蚂蚁 巢穴 与 食物 源 之 间 出 现 障 碍 物 
时 ， 昭 蚁 不 仅 可 以 绕 过 障碍 物 ， 而 且 通 过 蚁 群 信息 素 轨 迹 在 不 同 路 
任 上 的 变化 ， 经 过 一 段 时 间 的 正 反 馈 ， 最 终 收 敛 到 最 短路 任 上 。 

H ACO 算法 提出 以 来 , 已 经 成 功 地 用 于 生产 调度 、 机 如 人 路 竹 
规划 、 通 信 路 由 等 领域 的 组 合 优化 问题 。 
美国 社会 心理 学 家 Kenney 和 电气 工程 师 Eberhart 于 1995 年 所 
出 了 PSO 算法 。 主 要 思想 来 源 于 对 鸟 类 群体 行为 的 研究 ， 他 们 的 模 
型 和 仿真 算法 主要 利用 了 生物 学 家 Heppner 提出 的 模型 。 尽 管 最初 
的 设想 是 通过 仿真 乌 群 这 样 的 简单 社会 系统 来 研究 并 解释 复杂 的 社 
会 行为 ,但 随 看 研究 的 深入 ， 大 家 发 现 PSO 还 是 一 种 能 有 效 解决 复 
杂 优 化 问题 的 技术 ， 它 通过 群体 中 粒子 间 的 合作 与 范 争 而 产生 的 群 
体 智 能 进行 指导 优化 搜索 。PSO 与 人 工 生 命 ， 特 别 是 进化 算法 有 着 
极为 特殊 的 联系 ， 其 都 遵循 目 然 界 的 进化 原则 ， 但 比 进 化 算法 又 更 
多 地 保留 了 基于 种 群 的 全 局 搜索 策略 。PSO 算法 采用 简单 的 速度 一 
位 移 模 型 ， 避 人 锡 了 复杂 的 遗传 操作 ， 同 时 它 特 有 的 记忆 功能 使 其 可 
以 动态 地 跟踪 当前 的 搜索 情况 并 调整 搜索 策略 ， 具 有 较 强 的 全 局 搜 
索 能 力 和 和 鲁 棒 性 ， 且 不 需要 借助 问题 的 特征 信息 。 因 此 ，PSO 是 一 
种 更 高 效 的 并 行 搜索 算法 ， 非 常 适用 于 对 复杂 环境 中 的 优化 问题 的 
求解 。PSO 算法 解决 问题 是 先 初 始 化 一 组 随机 解 ， 通 过 迭 代 搜 寻 节 
IRE. Æ PSO 算法 中 ， 每 个 优化 问题 的 解 看 作 搜 索 空 间 的 一 只 乌 ， 
称 为 “粒子 ”。 上 所 有 的 粒子 对 应 看 优化 问题 的 适应 值 ， 粒 子 的 速度 决 
定 其 飞行 的 方向 和 距离 , 粒子 通过 追寻 群体 中 的 最 优 粒 子 来 完成 在 解 
空间 的 搜索 。PSO 筑 法 目 提 出 以 来 ， 由 于 其 计算 简单 、 多 于 实现 、 控 
制 参数 少 等 特点 ， 引 起 了 国内 外 相关 领域 众多 学 者 的 关注 和 研究 。 

在 PSO 算法 的 改进 方面 ,Kennedy 和 Eberhart 在 1997 年 提出 的 
二 进 制 PSO 算法 ， 为 PSO 算法 与 遗传 算法 的 性 能 比较 提供 了 一 个 
有 用 的 方式 ; 其 次 为 了 提高 复 法 的 收敛 性 能 , Shi 和 Eberhart 在 1998 
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年 对 PSO 算法 引入 了 局 性 权重 w， 并 在 进化 过 程 中 动态 调整 惯性 权 
重 以 平衡 全 局 性 和 收 伊 速 度 ， 广 进化 方程 被 称 为 标准 PSO 算法 
(standard PSO, SPSO); 2001 年 他 们 又 提出 了 基于 模糊 系统 的 惯性 
权重 动态 调整 方法 ，Clerc 于 1999 年 在 进化 方程 中 引入 收缩 因子 以 
保证 算法 的 收敛 性 ， 同 时 使 得 对 速度 的 限制 放松 ,使 PSO 算法 具有 
更 好 的 收敛 率 。Angeline 于 1998 年 和 1999 年 借鉴 进化 计算 中 的 选 
择 和 杂交 概念 ， 将 其 引入 PSO 算法 中 以 提 融 算 法 的 收敛 性 。 为 了 提 
高 PSO 算法 的 全 局 收敛 能 力 ，Suganthan 在 标准 PSO 算法 中 引入 空 
间 邻 域 的 概念 ， 将 处 于 同一 空间 邻 域 的 粒子 构成 一 个 子粒 子 群 分 别 
进行 进化 ， 并 随 看 进化 动态 地 改变 效 值 以 保证 群体 的 多 样 性 ; 
Kennedy 引入 邻 域 拓扑 的 概念 来 调整 邻 域 的 动态 选择 ， 同 时 引入 社 
会 信念 将 空间 邻 域 与 邻 域 拓扑 中 的 环 拓扑 相 结合 ， 增 加 邻 域 间 的 信 
息 交 流 ， 提 高 种 群 的 多 样 性 。Lovbjerg 等 于 2001 年 将 遗传 算法 中 的 
子 群体 概念 引入 PSO 算法 中 ， 同 时 引入 繁殖 算 子 以 进行 子 群体 的 
信息 交流 ; Kennedy 于 2004 年 从 概率 统计 的 角度 ， 将 粒子 的 运动 
改 为 正 态 分 布 的 随机 扰动 ， 并 采用 邻 域 环 拓扑 结构 来 改进 PSO 5E 
法 的 性 能 ; FE, RA. Krohling 将 演化 方程 中 的 加 速 因子 变动 方式 
由 原来 的 均匀 随机 分 布 改 为 正 态 分 布 ， 提 高 了 算法 的 收敛 能 力 ; 
Riget 等 从 利用 群体 的 多 样 性 出 发 ,在 PSO 算法 中 增加 了 友 敌 行为 ， 
较 好 地 提高 了 算法 的 全 局 搜索 能 力 ; 曾 建 潮 等 提出 利用 控制 理论 对 
PSO 算法 进行 分 析 ,， 并 从 提高 算法 效率 的 角度 出 发 ， 建立 了 积分 环 
节 与 振 沪 环节 组 成 的 系统 所 对 应 的 改进 PSO 算法 ; 他 们 还 分 别提 
出 了 基于 微分 模型 和 模拟 退火 算法 的 改进 PSO 算法 ; 局 海兵 等 提 
出 了 适用 于 解决 离散 问题 的 广义 粒子 群 优化 模型 , 并 将 算法 成 功 地 
应 用 于 TSP 问题 中 ;， 罕 全 胜 等 从 增强 粒子 群 优化 能 力 出 发 ， 将 模 
拟 退 火 和 分 工 策略 两 种 机 制 引 入 到 了 PSO 算法 中 ; 刘 宇 等 充分 利 
用 粒子 速度 信息 ， 改 变 了 粒子 速度 的 更 新 方式 ， 并 且 引 入 了 精英 集 
团 策 略 提 出 了 人 徐 约 PSO 算法 ; 刘 潜 波 等 在 分 析 了 PSO 算法 的 收敛 
性 的 基础 上 利用 混沌 特性 提高 种 群 的 多 样 性 和 搜索 遇 历 性 , Sera T 
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粒子 的 持续 搜索 能 力 ; MARETE PSO 算法 在 多 峰 函 数 优化 中 
多 于 早熟 的 缺点 ， 所 出 了 基于 反馈 稼 略 的 目 适 应 PSO £A. finu 
本 算法 来 解 的 成 功率 和 精确 度 。 


2.1.6 量子 粒子 群 优化 算法 


由 Sun 等 提出 的 QPSO 算法 来 源 于 量子 空间 中 的 量子 模型 。 量 
子 系统 由 于 态 登 加 性 而 具有 很 强 的 不 确定 性 ， 而 人 类 思维 也 是 具有 
不 确定 性 的 ， 因 而 用 量子 模型 描述 人 类 思维 和 智能 是 合乎 馆 辑 的 。 
关键 问题 是 如 何 建立 一 个 有 效 量子 模型 。 

是 群体 中 个 体 的 大 寞 是 有 限 的 ， 不 可 能 趋 加 无穷 大 。 只 集 性 是 由 和 群 
体 中 的 个 体 具 有 相互 学习 的 特点 决定 的 ， 个 体 的 学 习 有 以 下 特点 : 

(1) 追随 性 ， 即 个 体 总 是 倾 问 于 学 习 和 群体 中 最 优 的 知识 。 这 种 
性 质 使 个 体 的 差异 减 小 。 

(2) 记忆 性 ， 即 个 体 在 学 习 过 程 中 ， 受 到 目 映 经 验 知识 的 约束 ， 
而 这 种 特性 使 个 体 差 异 增加 。 由 于 这 两 个 特性 ， 个 体 在 学 习 过 程 中 
同时 受到 群体 最 好 知识 和 本 身 经 验 知识 的 影响 ， 通 过 学 习 获 得 一 种 
介 于 群体 最 好 和 个 体 经 验 之 间 的 知识 。 但 总 体 而 言 ， 具 有 这 两 种 性 
质 的 学 习 可 使 个 体 间 差异 减少 ， 群 体 多 样 性 降低 。 

(3) 创造 性 。 创 造 性 使 个 体 远离 现 有 知识 ， 使 个 体 的 差异 扩大 ， 
群体 多 样 性 增加 。 

公 集 性 是 起 同和 趋 卉 两 种 趋势 共同 作用 的 结 来 ， 但 赵 同 的 起 势 
更 大 ， 否 则 就 没有 聚集 性 。 从 算法 的 角度 分 析 ， 妃 随 性 和 记忆 性 的 
共同 作用 代表 局 部 搜索 能 力 ， 创 造 性 代表 全 局 搜索 能 力 。 

在 考虑 建立 量子 行为 粒子 群 算法 的 模型 时 ， 决 策 变 量 同 样 用 
粒子 的 当前 位 置 表示 (用 癌 量 关 表示), 代表 个 体 的 当前 思维 状态 ; 
粒子 经 验 中 搜索 到 的 具有 最 好 适应 值 (目标 函数 值 ) 的 位 置 代表 个 
体 经 验 知 识 ( 即 pbest); 当前 群体 中 的 具有 最 好 适应 值 的 粒子 位 置 
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代表 和 群体 最 好 知识 ( 即 gbest)。 察 集 性 在 力学 中 ， 用 粒子 的 束缚 态 
KHR. y "E xt dsl DS EERE TOZAN K bu e ds ER SL 
场 。 为 此 可 以 建立 一 个 量子 化 的 吸引 势 场 来 束缚 粒子 (个 体 ) 以 使 
群体 具有 聚集 态 。 处 于 量子 束缚 态 的 粒子 可 以 以 一 定 的 概率 密度 
出 现在 空间 任何 点 ， 它 只 要 求 当 粒子 与 中 心 的 距离 趋同 无 拖 时 ， 
概率 密度 趋 近 0。 因 此 量子 模型 的 随机 性 更 大 ， 关 键 问 题 束 是 如 
何 建立 以 及 采用 何 种 形式 的 势能 场 。 

M. Clerc 通过 代数 和 数学 分 析 方 法 ， 对 PSO 算法 中 粒子 收敛 行 
为 进行 了 分 析 。 人 研究 表明 ,粒子 i 的 收 合 过 程 以 点 P, Da Paos Pw) 
为 吸引 子 ， 其 坐标 为 : 
en DE (D+ er (DG (WD) 


D, (f) = "EOFEPWO SJSN) (2.5) 

或 者 
D,,( - 9,,(0- E, O+- 9, ,(0)]- G,(0) (2.6) 

A, 
9, (t) - en, Ola (Dn ,D+ en, O] (2.7) 


实际 上 当 cach, g (0 ARE 就 是 一 个 区 间 (0.D 上 均匀 分 布 的 
随机 数 ， 即 g, (Œ) ~U(0,1) 。 因 此 在 实际 计算 过 程 中 可 以 二 接 由 随机 
BUR ESTE, XU AQ.) K 

D,,(079,()- 5, O+- Hl CO o,(0) -U(061) — Q.8) 

在 量子 行为 粒子 群 算法 中 ， 采 用 这 个 式 子 。 

在 收敛 过 程 中 ， 随 看 速度 的 减 小 ， 粒 子 i 不 断 地 接近 p, S, 
最 后 跌落 到 p, 点 。 因 此 在 整个 过 程 中 ,在 p, 点 处 实际 上 存在 某 种 
形式 的 吸引 势 吸引 该 粒子 ， 这 正 是 整个 群体 保持 聚集 性 的 原因 。 
但 由 于 在 经 典 的 PSO 系统 中 ， 粒 子 的 收敛 是 以 轨道 的 形式 实现 的 ， 
并 且 粒 子 的 速度 总 是 有 限 的 ， 因 此 在 搜索 过 程 中 粒子 每 个 欠 代 步 
的 搜索 空间 是 一 个 有 限 的 区 域 ， 不 能 上 徐 音 整 个 可 行军 间 。 因 此 一 
般 的 PSO 算法 不 能 保证 以 概率 1 收敛 到 全 局 最 优 解 , 这 正 是 一 般 
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PSO 算法 的 最 大 缺陷 。 而 在 量子 宇 间 中 ， 粒 子 的 聚集 性 通过 在 糙 
子 运 动 中 心 存 在 的 某 种 吸引 势 产 生 的 束缚 态 来 描述 ， 而 处 于 量子 
缚 态 的 粒子 可 以 以 一 定 的 概率 密度 出 现在 空间 任何 点 ， 满 足 聚 
集 态 的 性 质 的 粒子 可 以 在 整个 可 行 解 空 x 间 中 进行 搜索 ， 但 不 会 发 
HIC] JE 23 x Ab o 

根据 以 上 基本 思想 ， 考 虑 在 p, RELAKS S, 3E EG 
现 ，6 势 阱 场 可 以 产生 比较 好 的 效率 ， 于 是 提出 了 基于 6 势 阱 的 量 
子 行为 的 粒子 和 群 算法 (QPSO)。 

QPSO 算法 的 思想 来 源 于 量子 力学 和 PSO 模型。 它 能 你 证 算法 
的 全 局 收 伊 并 且 在 优化 模型 中 只 有 位 置 癌 量 ， 没 有 速度 问 量 ， 控 制 
参数 少 ， 寻 优 能 力 强 。 尽 管 QPSO 算法 在 优化 问题 上 是 一 个 有 发 展 
前 景 的 复 法 ， 但 是 它 像 其 他 进化 算法 一 样 ， 也 会 遇 到 早 玖 收 伍 的 问 
题 ， 并 且 在 收敛 的 后 期 粒子 的 多 样 性 减少 了 了。 因此 出 现 了 许多 改进 
的 QPSO 算法 。Sun 等 提出 了 概率 分 布 机 制 使 种 群 在 全 局 搜索 中 更 
JW AS mH. Sun 等 提出 了 多 样 性 的 QPSO 来 防止 种 群 的 聚集 ， 使 
EE BÀ 
仅 能 跳出 局 部 最 优 而 且 能 够 提高 QPSO 算法 的 全 局 搜索 能 
Coelho 介绍 了 基于 Gaussian 概率 分 布 的 QPSO 算法 ， Spb 
入 了 变异 算 子 ， 采 用 Cauchy 变异 来 提高 QPSO 算法 种 群 的 多 样 性 ， 
加 强 算 法 的 全 局 收敛 能 力 ; 在 QPSO 算法 中 引入 免疫 算 子 ， 利 用 免 
疫 记 忆 和 接种 技术 的 特征 引导 算法 的 搜索 过 程 ， 来 提高 算法 的 收敛 
速度 。 


2.2 最 优化 理论 


本 诛 厦 利用 群体 智能 和 拭 法 进行 最 优化 问题 的 优化 议 计 。 最 优化 
问题 是 一 个 重要 的 数学 分 文 ， 它 所 研究 的 问题 征讨 论 在 众多 的 方案 
中 什么 样 的 方 邓 最 优 以 及 怎样 找 出 最 优 方 条 。 这 类 问题 普 衣 存在 ， 
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例如 ， 工 程 设 计 中 怎样 选择 设计 参数 ， 使 得 设计 方案 既 满足 设计 要 
求 又 能 降低 成 本 ; 在 资源 分 配 中 ， 怎 样 分 配 有 限 资源 ， 使 得 分 配方 
案 既 能 满足 各 方面 的 基本 要 求 ， 又 能 获得 好 的 经 济 效益 ; 在 生产 计 
划 安 排 中 ， 选 择 怎 样 的 计划 方案 才能 提高 产值 和 利润 ; 在 原料 配 比 问 
题 中 ， 怎 样 确 定 各 种 成 分 的 比例 ， 才 能 提高 质量 ， 降 低 成 本 ; 在 城建 
规划 中 ， 怎 样 安排 工矿、 机 关 、 学 校 、 商 店 、 医 院 、 住 户 和 其 他 单位 
的 合理 布局 ， 才 能 方便 群众 ， 有 利于 城市 各 行 各 业 的 发 展 ; 在 农田 规 
划 中 ， 怎 样 安排 各 种 农作物 的 合理 布局 ， 才 能 保持 高 产 稳产 ， 发 挥 地 
区 优势 ;在 军事 指挥 中 ， 怎 样 确定 最 佳作 战 方案 ， 才 能 有 效 地 消灭 
敌人， 保存 上 自己， 有 利于 战争 的 胜利 。 在 工程 、 技 术 、 经 济 、 管 理 
和 科学 研究 等 众多 领域 中 ， 最 优化 研究 正 是 为 这 些 问 题 的 解决 提供 
理论 基础 和 求解 方法 ， 有 具有 广泛 的 理论 价值 和 应 用 价值 。 

最 优化 问题 可 以 追溯 到 十 分 古老 的 极 值 问题 ， 然 而 ， 直 到 1947 
年 Dantzig 提出 求解 一 般 线 性 规划 问题 的 单纯 形 法 之 后 ， 它 才 成 为 
一 门 独立 的 学 科 。20 世纪 40 年 代 以 来 ， 由 于 生产 和 科学 人 研究 突 飞 
猛 进 地 发 展 ， 特 别 是 电子 计算 机 日 益 广泛 应 用 ， 使 最 优化 问题 的 研 
究 不 仅 成 为 一 种 迫切 需要 ， 而 且 有 了 求解 的 有 力 工具 。 因 此 最 优化 
理论 和 算法 迅速 发 展 起 来 ， 形 成 一 个 新 的 学 科 。 至 今 已 出 现 线性 规 
划 、 整 数 规 划 、 非 线性 规划 、 儿 何 规划 、 动 态 规划 、 随 机 规划 、 网 
络 流 等 许多 分 文 。 最 优化 理论 和 算法 在 实际 应 用 中 渗透 到 各 个 领域 ， 
并 正在 发 挥 越 来 越 大 的 作用 。 


2.2.1 最 优化 问题 


所 博 最 优化 问题 ， 融 是 指 在 满足 一 定 的 约束 条 件 下 ， 寻 找 一 组 
参数 值 ， 以 使 休 些 最 优 性 度量 得 到 满足 ， 即 使 系统 的 条 些 性 能 指标 
达到 最 大 或 最 小 。 通 吊 情 次 人 下， 最 优化 问题 是 寻找 最 小 值 问题 ( 寻 
找 最 大 值 问 题 可 以 转化 为 寻找 最 小 值 问题 )。 最 优化 问题 根据 其 目 
标 图 数 、 约 束 图 数 的 性 质 以 及 优化 变量 的 取信 等 可 以 分 成 许多 疼 
64 


， 第 2 章 进化 算法 和 最 优化 理论 M 


型 ,每 一 种 类 型 的 最 优化 问 圳 根据 其 性 质 的 不同 部 有 其 特定 的 求解 
方法 。 不 失 一 般 性 ， 最 小 化 问题 可 定义 为 
mino = f (X) 
Pi S-—-iX|g. CX) 7] 
为 n 维 优化 变量 。 
35r, X e (X) 20 的 约束 和 等 式 约 束 可 以 转化 为 -g,(X) 三 0 
的 约束 。 
当 有 WD)、g;(9 为 线性 函数 ， 上 且 X 宇 0 时 ， 上 述 最 优化 问题 即 为 线 
性 规划 问题 ， 其 来 解 方法 有 有 成熟 的 早 纯 形 法 和 Karmare 方法 。 
= 2)、g;(2) 中 全 少 有 一 个 函数 为 非 线 性 函数 时 ， 上 述 问 题 即 
为 非 线 性 规划 问题 。 非 线性 规划 问题 相当 复 林 ， 其 求解 方法 多 种 多 
梓 ， 但 到 目前 仍然 没有 一 种 有 效 地 适应 所 有 问题 的 方法 。 
当 优化 变量 蕊 仅 取 整数 值 时 ， 上 述 问题 即 为 整数 规划 问题 ， 特 
5| iE 24.X [BEBO Ek 1 时， 上 述 问 题 即 为 0-1 整数 规划 问题 。 由 于 
整数 规划 问题 属于 组 合 优化 沁 畴 ， 其 计算 量 随 变量 维 数 的 增长 而 指 
数 增 长 ， 所 以 存在 看 “ 维 数 灾 难 ” 问 题 。 
= g(X) 0 (到 170) 所 限制 的 约束 空间 为 整个 到 维 欧 氏 衬 间 ， 
BI R” 时 ， 上 述 最 优化 问题 为 无 约束 优化 问题 ， 即 
[dR 


(2.9) 


(2.10) 
Ist. Xec ScR' 


非 线 性 规划 问题 (包括 无 约束 优化 问题 和 约束 优化 问题 )， 由 于 

国 数 的 非 线性 ， 使 得 问题 的 求解 变 得 十 分 困难 ， 特 别 是 当 目 标 函 数 
在 约束 域内 存在 多 峰值 时 。 常 见 的 求解 非 线 性 问题 的 优化 方法 ， 其 
求解 结果 与 初 值 的 选择 关系 很 大 ， 也 就 是 说 ， 一 般 的 约束 或 无 约束 
非 线 性 优化 方法 均 是 求 目标 函数 在 约束 域内 的 近似 极 值 点 ， 而 非 真 
正 的 最 小 点 。 近 几 年 来 ， 随 看 计算 机 技术 的 发 展 ， 一 些 过 去 无 法 解 
决 的 复杂 优化 问题 ， 已 经 能 够 通过 计算 机 来 求 得 近似 解 ， 所 以 计算 
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机 求解 优化 问题 的 方法 研究 驳 显 得 越 来 越 重 要 。 寺 算 机 求解 优化 问 
题 的 主要 手段 束 是 对 优化 问题 的 可 行 解 至 — 而 按照 搜索 
策略 的 不 同 ， 可 以 将 主要 的 搜索 方法 分 为 三 

(1) MAYA. ÆTT ARA TITR, 以 求 出 精确 
最 优 解 。 对 于 连续 问题 ， 访 方法 要 求 先 对 其 进行 离 艇 化 处 理 ， 这 样 
就 有 可 能 产生 离散 误差 而 永远 达 不 到 最 优 解 。 男 外 ， 当 枚 举 空 间 比 
较 大 时 ， 该 方法 的 求解 效率 比较 低 。 枚 准 法 的 策略 最 人 简单， 计算 量 
也 最 大 。 而 且 枚 从 法 只 能 应 用 于 可 行 解 空间 是 有 限 集 合 的 情形 。 

(2) 局 发 式 算法 。 寻 求 一 种 能 产生 可 行 解 的 局 发 式 规 则 ， 以 找 
到 一 个 最 优 解 或 近似 最 优 解 。 访 方法 的 求解 效率 虽然 比较 高 ， 但 对 
每 一 个 需要 求解 的 问题 都 必须 找 出 其 特有 的 司 友 陈规 则 ， 这 种 局 友 
式 规则 无 通用 性 ， 不 适合 于 其 他 问题 。 

(3) 搜索 算法 。 该 算法 在 可 行 解 宪 间 的 一 个 子 空间 内 进行 搜索 
操作 ， 以 找到 问题 的 最 优 解 或 近似 最 优 解 。 该 方法 虽然 不 一 定 体 证 
能 够 得 到 问题 的 最 优 解 ， 但 知 适 当地 利用 一 些 启发 知识 ， 就 可 以 较 
好 地 平衡 近似 解 的 质量 和 求解 效率 。 


222 局 部 优化 算法 


WREX e D ， 使 得 对 于 VXe DE 
f(X) € f(X).XeD (2. LL) 

R, H'DCScCcR',SONBADWEIAIEH EAR WX 
AJ IXE D FRANE. fUO2J BR AIME 

第 见 的 优化 方法 大 多 为 局 部 优化 方法 ， 部 是 从 一 个 给 定 有 的 倪 始 
AX ES 开始 ， 按 照 和 东 种 方法 寻找 下 一 个 使 得 目标 销 数 值 揭 小 的 
铎 ， 和 且 全 满 惧 菏 种 集 止 准则 。 成 熟 的 局 部 优化 方法 人 很多， 如 
Newton-Raphson 74. puth EZ YE. Polar-Ribiere 法 、Davidon-Fletcher- 
Power(DFP)?X. Broyden-Fletcher-Goldfarb-Shsnn(BFGS) 77 7X: 55, 
有 专门 为 求解 最 小 二 乘 问题 而 发 展 的 ER 
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法 。 所 有 这 上 印 局 部 优化 算法 者 和 定 针 对 无 约束 优化 问题 的 ， 而 且 对 目 
标 疯 数 均 有 一 定 的 解析 性 质 要 求 , 如 Newton-Raphson 12:72 5K H bs PR 
数 连续 可 做 ， 同 时 要 求 其 一 阶 导 数 连 续 。 


2.2.3 全 局 优化 算法 


全 局 最 优化 问题 通常 可 描述 为 : 令 SH R 上 的 有 界 子 集 ( 即 变 
EWED, f 5 一 RR 为 n 维 实 值 函 数 ， 所 谓 函数 /在 5 域 上 全 局 


Ig VAL IE SK EX, E S EAX E S REE jgh, BE 
VXeS: f(X ) «€ f(X) (2.12) 


到 目前 为 止 ， 全 局 优化 问题 也 已 存在 了 许多 算法 ， 如 项 宛 图 数 法 
等 ,但 比 起 局 部 优化 问题 的 砍 多 成 见方 法 , 其 加 人 还 有 很 大 志 距 。 万 外 ， 
解析 性 优化 方法 对 目标 函数 及 约束 城 均 有 较 强 的 解析 性 要 求 , 对 于 请 
如 目标 函数 不 连续 、 约 束 域 不 连通 、 目 标 函 数 难 以 用 解析 函数 表达 或 
T ME UU S VER IRL, SEPT XE TED 7I 2904€ LAE JW.» 

为 了 可 徘 解 决 全 局 优化 问题 ， 人 们 试图 离开 解析 确定 型 的 优化 
算法 研究 ， 贡 而 探讨 对 函数 解析 性 质 和 要求 较 低 基 全 不 做 要 求 的 随机 
型 优化 方法 。 其 正 有 效 且 有 具有 普通 适应 性 的 随机 全 局 优化 方法 ， 十 
近 几 十 年 来 人 们 模拟 目 然 界 的 一 些 目 然 现象 而 友 展 起 来 的 一 系列 念 
生 型 售 能 优化 算法 ， 如 到 忌 搜 索 算 法 、 模 拟 退 火 算 法 、 进 化 类 算法 、 
群体 智能 算法 等 。 


2.2.4 最 优化 问题 的 求解 
1. 传统 万 法 求解 


以 成 熟 的 最 速 梯度 法 和 牛顿 法 等 为 代表 的 传统 优化 算法 具有 完 
善 的 数学 基础 、 计 算 效率 高 和 可 靠 性 强 等 特点 ， 是 一 类 最 重要 、 应 
用 最 广泛 的 优化 算法 。 这 类 算法 的 基本 迭代 步骤 如 下 

(1) 给 定 初始 点 x(0)， 关 0。 
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(2) 按照 条 一 方法 或 规则 构造 搜索 方 同 di) 

(3) 确定 步 长 L. 

(4) A P3 xà x(i+1)=x(i)+lid(i)x。 

(5) 判断 xG+l) 是 合 满 下 终止 条 件 , ripa, WUPRIEXETV. x(i+1) 
是 局 部 近似 最 优 解 ， 求 解 结束 ; A, itl, 2) 

在 人 迄 代 中 ， 核 心 是 构造 搜索 方 同 gD 和 确定 步 长 上。 总 体 来 看 ， 
传统 的 基于 杭 度 的 优化 算法 普 遇 要 求 目 标 函 数 导 数 和 连续 、 有 共有 计算 
FR PICKET M. AI, ÆI AR ME JEFA m 
度 病 态 的 优化 问题 时 ， 它 们 无 能 为 力 。 此 外 ， 传 统 的 优化 算法 建立 
在 局 部 下 降 的 基础 上 ， 常 弟 无 法 求 得 全 局 最 优 解 。 


2. 智能 算法 来 解 


近 三 十 多 年 来 ， 以 遗传 算法 为 代表 的 进化 算法 (EA) 作 为 智能 算 
ip RIA se. 为 求解 最 优化 问题 近 供 了 源 的 思路 和 方法 。 EA $ 
拟 了 生物 进化 过 程 和 机 制 来 求解 问题 ， 即 认为 生物 进化 是 一 个 从 简 
单 到 复杂 、 从 低级 到 高 级 ， 目 然 、 并 行 发 生 且 稳健 的 优化 过 程 ， 遵 
件 “ 物 苋 天 拌 ， 适 者 生存 ”的 法 则 。 进 化 算法 作为 一 种 基于 种 妊 的 
随机 优化 算法 ， 其 计算 过 程 可 插 述 为 : 

(1) 从 助 一 定 的 问题 信息 或 者 随机 生成 一 组 委 始 化 解 ， 作 为 初 
始 种 群 。 

(2) 对 当前 种 群 的 个 体 进行 评价 。 

(3) 位 难当 前 种 群 的 个 体征 个 满 征 进 化 结束 条 件 ， 丰 请 征 ， 则 
界 法 人 终止， 输出 最 优 解 和 最 优 值 。 

(4) 依据 一 定 的 规则 从 妆 醒 种 群 中 选择 个 体 ， 构 成 狐 的 种 群 ， 
开始 下 一 代 进 化 。 

(5) 对 新 的 种 群 施加 进化 拭 子 ， 产 生子 代 个 体 ， 轩 (2)。 

与 传统 的 基于 株 度 的 优化 算法 相 比 ， 进 化 四 法 其 有 以 下 特 扣 : 

(D) 进化 舞 法 共有 目 组 织 、 目 适应 和 目 竺 习 能 力 。 在 确定 了 适 
应 度 图 数 和 进化 鼻子 后 ， 进 化 算法 将 利用 进化 过 程 中 获得 的 信息 目 
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行 组 织 搜 索 ， 使 得 适应 度 大 的 个 体 上 其 有 较 局 的 生存 叙 训 。 

(2) 进化 算法 不 圾 要 导数 或 其 他 辅助 知识 ， 而 只 宕 要 影响 搜索 
JT VR] HY H ER EI S EXC FH INE EJ X P BE BI LÁ 

(3) 进化 算法 具有 本 质 并 行 性 。 进 化 算法 具有 内 在 并 行 性 ， 即 
算法 本 身 适 合 大 规模 并 行 ; 同时 具有 内 合并 行 性 ， 由 于 进化 算法 有 条 
用 种 群 的 万 式 组 织 搜 索 ， 因 而 可 以 同时 搜索 解 空间 内 的 多 个 区 域 ， 
并 相互 交流 。 

(4) 进化 得法 是 随机 搜索 复 法 ， 强 调 概 率 转 换 规 则 ， 而 不 征 确 
定 的 转换 规则 ， 起 一 种 全 局 优化 算法 。 

(5) 对 一 个 给 定 的 问题 ， 进 化 得 法 可 以 同时 产生 多 个 淤 在 解 ， 
最 终 由 使 用 痢 根 据 再 要 选 撞 使 用 。 

全 于 20 世纪 90 年 代 研 究 的 群体 镶 能 复 法 征 进化 得 法 的 一 个 重 
和 要 及 展 。 其 基本 电力 是 模拟 目 然 界 生 物 群 体 行为 来 构造 随机 优化 算 
Ao MAR ERIAN KAES RKI FERMER, JF 
HA EKITE, A CANER — T A Re 


2.3 “本章 小 结 


本 章 简要 介绍 了 六 种 进化 算法 的 概念 和 它们 的 优化 过 程 ， 以 及 
算法 的 改进 。 关 于 遗传 算法 、 粒 子 群 优化 算法 和 量子 粒子 群 优化 算 
法 的 详细 介绍 见 第 3 章 。 进 化 算法 的 主要 功能 是 对 问题 进行 优化 ， 
因此 本 章 介 绍 了 最 优化 理论 以 及 最 优化 理论 的 求解 
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第 3 章 遗传 算法 、 粒 子 群 优化 算法 
和 量子 粒子 群 优化 算法 


3.1. IRRIA 


3.11. i fe SEO P] JE LR 


ivi EETE(GA))IPBINES Scr 1967 年 由 Bagley 4I Rosenberg 提出 
HJ, 1975 年 美国 Michigan 大 学 的 Holland J H 教授 等 在 著作 Adaptation 
in Natural and Artificial Systems X E IRHEB NE E RRE, ABI TH: 
AR E IEM VER a DAR HJ 398 fe ^ V 5 LN EA PE SK bs HI TFE In] 78 
H, FRH, XXE ATE RAE. BeA E 
以 目 然 界 中 的 “ 适 者 生存 ”的 生物 进化 理论 为 青 景 ， 模 拟 目 然 选 择 
和 遗传 进化 过 程 中 的 繁殖 、 交 配 和 变异 等 现象 ， 进 而 发 展 起 来 的 一 
种 高 效 随机 搜索 优化 方法 。 

遗传 算法 的 基本 怕 理 是 从 任意 一 个 初始 种 群 出 友 ， 应 用 和 群体 搜 
索 技 术 ， 将 种 群 代表 一 组 问题 解 ， 通 过 对 当前 种 群 的 选择 、 交 叉 和 
变 开 等 选 传 操 作 ， 产 生 独 一代 种 群 ， 并 逐步 使 种 群 进化 到 包含 近似 
最 优 解 的 状态 。 其 主要 特点 征 群 体 搜索 条 略 和 和 群体 中 个 体 乙 则 的 信 
县 交换 ， 在 搜索 过 程 中 不 依赖 于 外 界 信息 ， 而 是 有 效 利 用 已 有 信息 
来 目 劲 钓 取 和 积累 有 关 搜 索 衬 间 的 知识 ， 并 目 适 应 地 控制 搜索 方 回 
使 其 最 终 找到 最 优 解 。 遗 传 算法 与 进化 策略 、 进 化 规划 共同 构成 了 
进化 拭 法 的 主要 框 淋 。 
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选 传 算法 中 的 基本 术语 


为 了 能 更 好 地 理解 遗传 算法 的 思想 ， 下 面 介 绍 簿 传 算法 中 涉及 


的 相关 术语 。 
o B(sting): 个 体 的 表现 形式 ， 对 应 于 簿 传 学 中 的 染色 体 


/4 


(chromosome)， 即 生物 细胞 中 含有 的 一 种 遗传 物质 基因 的 
基因 (gene): 串 中 部 分 字符 的 组 合 元 素 ， 表 示 不 同 的 特征 。 
对 应 于 遗传 的 基本 单位 ， 以 碱 基 序列 表现 。 

基因 座位 (locus): 菏 一 遗传 基因 在 染色 体 中 的 位 置 。 在 遂 
传 算法 中 ， 可 以 将 其 看 作 序 列 的 位 置 。 

^" HGndividual): 市 有 特征 的 染色 体 实 体 ， 是 遗传 算法 中 
所 处 理 的 基本 对 象 和 结构 ， 可 看 作 实际 问 题 的 解 。 

种 群 (population): 个 体 的 集合 ， 集 合 中 个 体 的 数目 称 为 种 
群 的 规模 或 大 小 。 

选择 (selection): 在 有 限 资 源 空 间 的 排他 性 竞争 ， 以 一 定 概 
率 从 种 群 中 选择 徊 干 个 体 的 过 程 。 在 遗传 算法 中 通过 选择 
狂 得 适应 度 较 高 的 个 体 。 

^E X (crossover): 染色 体 间 通过 交叉 使 基因 重组 ， 又 称 为 
杂交 。 在 遗传 算法 中 按照 一 定 规则 交换 部 分 基因 ， 是 址 传 
算法 中 的 主要 操作 ， 也 是 产生 新 个 体 的 主要 方法 。 

4» (mutation): 染色 体 基 因 被 复制 时 ， 可 能 以 小 概率 产生 
菏 些 复制 老 钳 ， 从 而 产生 新 的 染色 体 。 在 遗传 算法 中 将 个 
体 编 码 串 中 的 荣 些 基因 值 用 其 他 基因 值 蔡 换 ， 从 而 形成 一 
个 新 个 体 的 操作 方式 。 

ENJE (fitness): 是 用 来 度量 茶 物 种 在 遗传 和 进化 中 对 其 生 
和 存 环 境 的 适应 程度 ， 或 在 环境 压力 下 的 生存 能 力 ， 取 决 于 
高 ， 说 明 个 体 的 质量 越 好 。 
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e 网 但 (coding): 十 通过 未 种 编 但 机 制 将 实际 问题 解 宇 间 的 
解数 据 表 示 成 串 形 式 的 数据 结构 ， 在 遗传 算法 中 表现 型 
到 遗传 型 的 映射 。 

e 解 公 (decoding): 吐 传 操作 结束 后 ， 壮 传 型 到 表现 型 的 
EHT 


3.1.3 遗传 算法 的 步骤 及 流程 图 


遗传 算法 是 通过 对 进化 过 程 中 的 种 群 反 复 进 行 选择 、 交 叉 、 变 
寞 操作 来 模拟 目 然 界 中 种 群 的 演变 过 程 ， 和 直到 满足 一 定性 能 要 求 才 
结束 计算 。 应 用 遗传 算法 求解 问题 的 基本 步骤 如 下 : 

(1) 编 合 。 硝 定 变量 定义 域 及 编 但 精度 ， 形 成 编码 方案 。 

(2) 种 群 仍 始 化 。 随 机 产生 初始 种 群 作为 第 一 代 ， 同 时 确定 个 
体 长 度 和 种 群 规模 。 

(3) 计算 适应 度 值 。 根 据 问题 设置 合适 的 适应 度 图 数 ， 计 算 种 
群 中 个 体 的 适应 度 ， 并 判断 是 奋 满足 终止 条 件 ， 夺 满足 ， 则 输出 最 
佳 个 体 及 其 代表 的 最 优 解 并 结束 计算 ; 合 则 进入 下 一 步 。 

(4) 站 传 操作 之 选择 算 子 。 依 据 适 应 度 值 从 当前 种 群 中 选择 优 
民 的 个 体 ， 使 它们 有 机 会 被 选中 进入 下 一 代 种 群 中 ， 适 应 上 度 高 的 个 
体 被 选中 的 概率 高 ， 适 应 度 低 的 个 体 可 能 被 淘汰 ， 体 现 了 进化 论 的 
“ 适 者 生存 ”原则 。 

(5) 遗传 操作 之 交叉 算 子 。 对 航 选 搓 进 入 匹配 池 中 的 父 幸 个 体 
进行 交叉 操作 ， 形 成 子 牵 个 体 ， 得 到 新 种 群 ， 体 现 了 信息 交换 的 
原则 。 

(6) 仁 传 操作 之 变 卉 算 子 。 以 小 概率 在 种 群 中 随机 选择 条 个 父 
替 个 体 进 行 变 弄 操作， 形成 子 奉 个 体 ， 得 到 新 种 群 。 

(7) 更 狐 种 群 。 根 据 一 定 概 率 选 择 个 体形 成 新 种 群 ， 返 回 到 雹 
JE). 

其 基本 流程 如 图 3.1 Pra. 


Ta 
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|| 


神 群 初始 化 


| 计算 种 群 中 所 有 个 体 
He REIR 


选择 
" EET 


图 3.1 ETE SEI AES LEE 

3.4. 遗传 算法 的 构成 要 素 

根据 上 面 的 基本 步骤 和 流程 图 可 以 看 出 ， 遗 传 算法 中 有 五 个 关 
键 的 构成 要 素 。 

1. 编码 

编码 就 是 用 一 种 码 来 表示 优化 问题 的 解 , 是 从 实际 问题 到 解 空间 
数学 模型 的 映射 。 因 此 对 于 一 个 实际 的 优化 问题 ， 首 先 要 将 其 表示 为 
适合 于 遗传 算法 操作 的 形式 ， 即 编码 。 所 谓 编码 ， 就 是 把 问题 的 搜索 


空间 中 每 个 可 能 的 点 表示 成 壮 传 复 法 可 以 处 理 的 格 云 ， 解 后 则 与 之 相 
有 反 。 当 算法 找到 最 住 个 体 后 ， 要 进行 相应 的 解码 操作 后 ， 才 能 够 得 到 
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实际 问题 的 解 。 随 看 编码 方案 的 确定 ， 解 码 方案 也 就 随 之 确定 。 
编 公 是 应 用 遗传 算法 解决 实际 问题 的 首要 问题 , 也 是 关键 问题 。 
它 决定 了 个 体 中 基因 的 排列 次 序 ， 也 决定 了 如 何 进 行 交 叉 、 变 异 等 操 
作 。 编 码 方法 的 好 坏 ， 不 仪 影响 了 遗传 操作 实现 的 难 易 程度 而且 在 
很 大 程度 上 决定 了 遗传 算法 的 执行 效率 。Balakrishman 等 较 全 面 地 讨 
论 了 编码 的 一 组 特性 ， 主 要 包括 可 扩展 性 、 完 全 性 和 复杂 性 等 九 个 特 
性 ， 但 设计 编码 策略 时 仍 需 要 在 这 些 彼此 矛盾 特性 中 权衡 利 阁 。 
第 用 的 编 公 方式 有 以 下 儿 种 。 
e 二进制 编码 : 是 遗传 算法 编码 中 最 常用 的 方式 ， 其 编码 符 
号 集 是 二 进 制 的 0 和 1 字符 串 , 其 个 体 基因 是 二 值 符 号 串 。 
例如 (0110011) 就 是 一 个 长 度 为 7 的 二 进 制 编码 个 体 。 本 书 
第 5 革 粒 子 群 优化 算法 的 编 公 就 是 采用 这 种 编 公 方式 。 
e uA: 其 编码 符号 集 是 十 进 制 的 0 一 9 的 字符 串 ， 
其 个 体 基因 是 十 值 符号 串 。 01200234761) 4 — ^h A& BE 2g 
7 的 二 进 制 编 码 个 体 。 
e JFR: 其 编码 符 写 集 是 无 数值 意义 只 有 代码 意义 的 符 
号 集 ， 这 个 符号 集 可 以 是 一 个 字母 表 ， 如 {A,B,C…}， 也 
可 以 是 一 个 序号 表 {1,2,3,…}。 本 书 第 4 草 遗 传 算 法 的 编 但 
就 是 采用 这 种 字母 从 号 编 公 方式 。 
e FAR: 个 体 的 每 个 基因 值 都 是 一 个 浮 点 数 ， 一 般 是 
决策 变量 的 真实 值 。 该 方法 适用 于 在 遗传 算法 中 表示 较 大 
HJ. MHF URS BEBE ELE. 
2. 产生 初始 种 群 
初始 种 群 是 遗传 算法 进行 搜索 最 优 解 的 开始 ， 是 由 多 个 染色 体 
(个 体 ) 组 成 的 集合 。 产 生 初 始 种 群 的 方法 一 般 有 两 种 : 一 种 是 完全 
随机 地 产生 初始 种 群 ， 适 用 于 对 竺 求解 问题 的 解 没 有 任何 先 验 知识 
的 情况 ， 这 样 产 生 的 种 群 具 有 更 好 的 多 样 性 ， 在 一 定 程 度 上 可 以 避 
人 免 收敛 于 局 部 最 优 解 ; 另 一 种 是 根据 荣 些 已 知 的 先 验 知识 转化 为 必 
rdi 


E 上 篇 多 序列 比 对 基础 篇 ， 


顷 满 趾 的 一 组 要 求 ， 在 杞 始 化 时 对 要 生成 的 解 加 以 限定 ， 然 后 在 请 
丰 这 些 要 求 的 解 中 进行 随机 选取 ， 这 样 产 生 的 种 群 运行 时 能 够 更 快 
地 收敛 到 最 优 解 。 

产生 初始 种 群 的 关键 是 种 群 规 模 。 规 模 越 大 ， 和 被 遗传 操作 处 理 
的 模式 越 多 ， 搜 索 到 问题 最 优 解 的 机 会 融 越 局 ， 算 法 也 不 容易 陷入 
局 部 最 优 解 。 反 之 ， 如 未 规 借 较 小 ， 则 利用 适应 度 图 数 进行 评价 的 
钦 数 丈 少 ， 不 但 减少 了 计算 量 ， 和 而 且 对 系统 资源 的 要 求 也 降低 了 ， 
从 而 提高 了 算法 的 执行 效率 ;但 是 规模 太 小 ， 又 降低 了 种 群 的 多 样 
性 ， 影 啊 算 法 的 全 局 优化 性 有 能。 因此， 群体 规 梗 太 大 或 太 小 与 鼻 法 
ER, TAMER IRAGE ERKA. EKIM RF, PEAR 
规模 一 般 取 值 沁 围 为 20~~100。 


3. EME ER ENT 


在 用 壮 传 算法 进行 进化 搜索 最 优 解 之 前 ， 必 须要 确定 适应 度 函 
数 。 适 应 度 函 数 古 用 来 评价 种 群 中 个 体 优 务 程度 的 一 个 指标 。 适 应 
ERRUER Y HARZHOEMUX FErB , 各 种 生物 对 目 然 环 卉 的 适应 能 力 ， 
EMEEK KANE RR; 值 越 小 则 越 可 能 火 亡 。 

一 般 而 言 ， 遗 传 算法 在 搜索 过 程 中 ， 仅 以 适应 度 函 数 为 依据 ， 
利用 种 群 中 个 体 的 适应 度 值 来 决定 搜索 的 方 辐 ， 而 基本 个 用 外 部 信 
县 。 适 应 度 图 数 的 选取 十 分 重要 ， 征 决定 站 人 传 复 法 收敛 速度 以 及 能 
人 奋 得 到 全 局 最 优 解 的 天 键 点 。 如 未 适应 度 冰 数 充 计 不 当 ， 则 可 能 站 
半 传 拭 法 后 期 出 现 收 合 于 局 部 最 优 解 的 情况 。 因 此 ， 适 应 度 冰 数 套 
影 啊 遗 传 算 法 收敛 速度 以 及 能 个 找到 最 优 解 的 一 个 重要 因 系 。 

一 般 情 况 下 适应 度 图 数 由 目标 函数 或 驶 用 图 数 转变 而 成 。 适 应 
PE K HI etr MA RE VE ROE GE Ek, FAE 
vim. AH ESRA A o 


4. 遗传 操作 


遗传 操作 主要 包括 选择 、 交 又 和 变异 三 种 基本 操作 。 
78 
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1) 选择 操作 (Selection) 

选择 操作 是 授 一 定 规则 从 父 代 种 群 中 选取 在 干 个 体 遗 传 到 下 一 
代 种 群 中 的 操作 方式 。 在 遗传 算法 中 ， 适 应 度 高 的 个 体 和 被 遗传 到 下 
一 代 种 群 中 的 概率 也 大 , 这 样 可 以 加 强 优秀 个 体 在 下 一 代 中 的 优势 。 
群体 中 东 个 个 体 被 选择 的 概 座 与 其 适应 度 值 成 正比 。 第 用 的 选择 算 
子 包括 最 佳 个 体 你 存 选 择 、 期 户 值 选择 、 轮 刀 赌 选择 、 随 机 授 历 抽 
柱 选 择 和 截断 选择 守 。 下 务 评 细 讲 述 三 种 最 党 用 的 选择 算 子 。 

(1) 比例 选择 (或 轮 盘 赌 选 择 ) 

比例 选择 方法 也 叫 毗 熏 赠 选择 方法 ， 在 这 种 选择 方法 中 ， 各 个 个 
体 被 选中 的 概率 与 其 适应 度 成 正比 ,个 体 的 适应 度 越 高 ， 其 被 选中 的 
概率 就 越 大 。 由 于 该 方法 思想 简单 且 容易 实现 ， 因 此 它 是 遗传 算法 中 
最 经 第 使 用 的 选择 方法 。 轮 盘 赌 选择 的 基本 思想 是 : 根据 个 体 的 
适应 度 值 AG =1.… ,站 ,计算 出 个 体 的 相对 适应 值 f / SS, ON p, 


然后 根据 选择 概率 {p i= Lh kY 387 dE 7) X k a, RUPES dT 
形 的 圆心 角 为 27p,。 在 进行 选择 时 可 以 想象 一 下 转动 圆 盘 ,若菜 个 参 
照 点 落 入 第 i 个 届 形 中 ， 则 选择 个 体 i。 

实现 过 程 为 : 首先 生成 一 个 [0,1] 的 随机 数 x ， 若 p, +p, +--+ 
P <r<p +p, ++p +p: WERNE i HI, ENRE 
个 体 被 选择 的 概率 也 大 ， 其 基因 更 容易 被 遗传 到 下 一 代 。 

缺点 : 随机 操作 原因 ， 误差 比较 大 ， 有 时 适应 度 高 的 个 体会 被 

(2) dg EA BS DIA E SR DR EH 2S) 

在 使 用 遗传 算法 求解 问题 的 过 程 中 , BAME REINES 
产生 出 越 来 越 多 的 优 民 个 体 ， 但 由 于 选择 、 交 又 、 变 异 等 遗传 操作 的 
随机 性 ， 当 前 群体 中 适应 度 最 好 的 个 体 也 有 可 能 被 破坏 挥 ， 从 而 降低 
了 和 群体 的 平均 适应 度 ， 影 啊 遗 传 算法 的 运行 效率 和 收敛 速度 。 为 此 ， 
还 经 第 使 用 将 适应 度 最 好 的 个 体 保 留 到 下 一 代 群 体 中 的 方法 来 进行 
优胜 劣 汰 操作 , 即 当前 群体 中 适应 度 最 高 的 个 体 不 参与 交叉 运算 和 变 
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卉 运 军 ， 和 而 是 用 它 来 人 稚 换 挥 本 代 群 体 中 经 过 交叉、 变 卉 守 壮 传 操作 
后 所 产生 的 适应 度 最 低 的 个 体 。 最 佳 个 体 保存 法 的 思想 是 把 群体 中 
适应 度 最 高 的 个 体 不 进行 配对 交叉 ， 而 直接 复制 到 下 一 代 中 。 这 种 
选择 操作 又 称 为 复制 。 通 过 复制 ， 每 代 最 优 个 体 的 基因 不 会 被 灾 叉 、 
变异 等 操作 破坏， 使 算法 问 最 优 解 迫 近 。 这 里 可 以 将 上 一 代 个 体 的 
适应 度 值 按 大 小 排列 ， 将 前 10% 的 个 体 保存 到 下 一 代 。 有 基体 操作 过 
FEWN F: 

O FRE 2A BUE I E PE ra RR TEC P I e 

D d BAE TP EE MISES BE EG RI 36 7 29 1E RP ec P 
体 的 适应 度 局 ， 则 以 当前 群体 中 的 最 佳 个 体 作 为 新 的 迄今 为 止 的 最 
W^. 

He 4 AEWRE NERA RANAN. 

(3) MENKE TE 

使 用 以 上 两 种 方法 进行 个 体 选 择 时 ， 选 择 操 作 的 随机 性 很 强 ， 
不 依赖 于 人 的 意志 而 改变 。 确 定式 采样 选择 方法 可 以 人 为 地 控制 对 
个 体 的 选择 操作 ， 其 基本 思想 是 按照 一 种 确定 的 方式 来 进行 选择 。 
具体 操作 过 程 如 下 : 

O 计算 和 群体 中 每 个 个 体 在 下 一 代 中 的 生存 期 诅 数 目 
N =M-F YE (i=1,2,--- M) o 


D 用 ,的 整数 部 分 确定 各 个 对 应 个 体 在 下 一 代 群 体 中 的 生存 
数目 。 由 该 步 可 确定 出 下 一 代 群 体 的 S UN), rp M 为 群体 中 个 
体 的 数目 。 

© 按照 N 的 小 数 部 分 对 个 体 进行 降序 排序 ， 顺 序 取 前 
M -» [Wi] 个 个 体 加 入 下 一 代 群 体 中 。 

D 下 一 代 中 的 M 个 个 体 全 部 确定 出 来 。 

优点 ， 能够 保证 适应 度 较 大 的 一 些 个 体 一 定 能 够 被 保留 到 下 一 
代 群 体 中 。 
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2) ^: X. f TE(Crossover) 

人 交 义 操作 是 将 两 个 父 代 个 体 按 一 定 规则 相互 交换 部 分 基因 ， 从 
而 形成 两 个 狐 的 个 体 的 操作 方式 。 交 文 操 作 是 中 传 算法 中 最 主要 的 
操作 ， 是 产生 狐 个 体 的 主要 操作 方法 ， 决 定 了 次 传 算法 的 全 局 搜索 
能 力 。 交 义 算 子 将 彼 选 中 的 两 个 个 体 的 基因 按 交 义 概 率 进 行 交 义 ， 
产生 两 个 新 的 个 体 ， 航 交换 基因 的 位 置 定 随机 的 。 交 义 概 靳 的 大 小 ， 
决定 了 交叉 操作 的 频 京 。 频 对 越 大 ， 可 以 越 快 地 收敛 a 到 最 可 能 包括 
最 优 解 的 区 域 ， 但 频率 太 遍 也 可 能 会 导致 算法 过 早 收 敛 。 实 际 应 用 
中 ， 人 交叉 概率 一 般 取 但 在 0.4—0.9 <i. 

交叉 操作 的 方式 有 早点 交叉 、 多 扣 区 义 守 。 图 3.2 所 示 是 两 种 各 
见 区 广 操 作 的 示意 图 。 


父 个 体 1 00000101110000000010000 ” 父 个 体 1 00000101110000000010000 
父 个 体 2 11100100000111111000101 ” 父 个 体 2 11100100000111111000101 


子 个 体 1 00000100000111111000101 子 个 体 1 00000100000111111010000 
子 个 体 2 11100101110000000010000 ” 子 个 体 2 11100101110000000000101 
(a) 单 点 交叉 (b) 两 点 交叉 
图 3.2 单 点 区 义 和 两 点 交叉 


H AA X (one-point crossover) 是 在 个 体 中 随机 人 设 定 一 个 交叉 后， 
交叉 时 该 点 前 或 后 的 两 个 个 体 的 部 分 结构 进行 互 换 ， 生 成 两 个 新 的 
个 体 。 图 3.2(a) 举 例 说 明了 多 序列 比 对 的 一 点 交叉 法 。 在 两 个 父 个 
体 中 随机 选取 父 比 对 1 中 第 一 条 友 列 第 七 个 位 置 为 交 义 位 置 ， 从 此 
处 垂直 切 开 ， 将 父 比 对 2 从 与 父 比 对 1 相应 的 字符 位 置 处 切 开 ， 然 
后 将 切 开 后 的 两 个 序列 的 前 后 部 分 交换 ， 互 换 拼 接 后 的 两 部 分 之 间 
加 空格 补 齐 ， 使 每 个 序列 个 体 的 长 度 相 等 ， 得 到 两 个 新 的 子 个 体 。 
所 产生 的 两 个 个 体 , 与 之 前 的 父 代 个 体 比 较 ， 只 保留 适应 度 值 高 于 
父 代 的 新 个 体 。 交 又 操作 是 按 人 概率 p. 来 控制 友 生 的 ， 并 不 是 所 有 
被 选择 到 的 个 体 都 会 发 生 交 又 ， 这 样 的 设计 符合 生物 进化 的 规律 。 
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3) 变异 操作 

变异 操作 是 根据 变异 概率 将 个 体 编 始 串 中 的 某 些 基因 值 用 其 他 
基因 值 替换 从 而 形成 一 个 新 个 体 的 操作 方式 。 变 异 是 遗传 算法 中 产 
生 新 个 体 的 辅助 方法 。 在 变异 操作 中 ， 虽 然 增 大 变异 概率 可 以 保证 
种 群 的 多 样 性 ， 但 过 大 会 导致 遗传 算法 退化 为 “ 纯 ” 随 机 搜索 算法 。 
变异 概率 的 大 小 一 般 与 染色 体 的 长 度 成 反比 ， 与 种 群 的 大 小 无 天 。 
实际 应 用 中 ， 变 并 概率 一 般 取 值 范 围 为 0.001 一 0.1。 

变异 操作 能 够 提高 遗传 算法 的 局 部 搜索 能 力 , 保持 种 群 多 样 性 ， 
使 算法 免 于 陷入 局 部 最 优 解 而 停 沛 不 前 。 变 开 操 作 包 括 实 值 变异 和 
二 进 制 变异 两 种 ， 其 中 二 进 制 变异 方法 包括 换 位 、 复 制 、 插 入 、 删 
除 守 。 如 果 按 照 变 措 位 点 个 数 来 分 类 ， 义 分 为 一 点 变 寞 和 多 点 变 弄 。 

图 3.3 所 示 是 第 见 的 一 点 变 卉 操作 有 的 示 总 图 。 

父 个 体 00000101110000000010000 


子 个 体 01000001110000000010000 
图 3.3 一 点 变异 


5. 终止 条 件 及 参数 设 定 


半 传 算法 的 终止 条 件 一 般 有 以 下 儿 种 : 

(1) 种 群 中 个 体 的 最 大 适应 虐 值 超过 预 设 值 。 

Q) 种 群 中 个 体 的 平均 适应 度 什 超过 预 充值 。 

(3) 种 群 中 最 大 世人 代数 超过 预 议 信 。 

(4) 壮 传 操作 失败 人 次 数 超过 预 设 值 。 

半 传 扯 法 运行 参数 包括 染色 体 长 度 、 种 群 大 小 、 交 义 识 、 变 开 座 、 
EAIA. 这 些 参数 一 般 可 在 算法 起 行囊 根据 实际 情 帝 目 行 议定 


3.1.5. je FE LUE I DG BR s 


MAE ELA AS] FERR RARITA, EEZRHA A RILI 
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面 优点 : 

(D 具有 自 适应 、 自 组 织 和 上 自学 习性 (智能 性 )。 遗 传 算法 根据 进 
化 过 程 获得 的 信息 可 以 目 行 调整 搜索 方向 ， 对 于 适应 度 大 的 个 体 将 
具有 较 高 的 生存 概率 ， 而 适应 度 低 的 个 体 将 在 进化 过 程 中 消亡 。 

D 遗传 算法 具有 本 质 并行 性 。 许 多 传统 搜索 算法 都 是 进行 单 
点 搜索 ， 因 此 极 易 陷入 局 部 的 最 优 解 。 而 遗传 算法 是 从 多 个 初始 
个 体 一 齐 进 行 搜索 ， 能 够 有 效 地 进行 全 局 搜索 ， 减 少 了 陷入 局 部 
最 优 解 的 风险 ， 同 时 提高 了 计算 速度 。 

(3) 遗传 算法 应 用 范围 广泛 且 应 用 灵活 。 利 用 遗传 算法 解决 问 
题 时 基本 上 不 用 其 他 辅助 信息 ， 只 需要 设计 合理 的 影响 搜索 方 问 的 
适应 上 度 图 数 ， 且 对 函数 本 喘 基 本 无 限制 。 这 一 特点 使 得 遗传 算法 的 
应 用 范围 大 大 扩展 。 

(4) 叶 传 算法 不 是 对 参数 本 里 进 行 操作 , 而 是 对 把 参数 集 进行 


了 编 但 的 个 体 进 行 操 作 。 这 一 特点 使 得 遗传 复 法 应 用 更 加 百 接 、 
方便 。 


(5) 壮 传 算法 不 是 百 目 搜索 。 它 采用 概 对 的 变迁 规则 来 指导 其 
搜索 方 和 同 ， 而 随机 性 操作 有 效 傈 持 了 种 群 的 多 样 性 。 

半 传 算法 以 其 息 棱 性 冻 、 应 用 闪 活 等 优 品 ， 在 大 多 数 情况 下 部 
可 以 得 到 最 优 解 ， 对 大 规模 NP 问题 也 能 取得 比较 理想 的 效果 。 

WA Ei: 遗传 算法 虽然 在 很 多 方面 已 取得 成 功 的 应 用 ， 但 在 各 方 
田 的 应 用 中 普 衣 存在 过 早 收敛 于 局 部 最 优 解 的 现象 ， 即 算法 的 “ 早 
熟 ” 问 题 ， 以 及 在 进化 后 期 搜索 效 座 低 。 壮 传 算法 十 一 种 全 局 搜索 
算法 , 但 是 仍 然 存 在 无 法 收敛 于 全 局 最 优 解 的 问题 。 最 典型 的 定 “ 早 
A" MUR. ERU ZEIRTEXA TE EE TOSLEETPPPRE e EE 
TIER. AR RARITA. RAAF P Jer ie LE. Tf 
JG SEIS e DUAE. H FEARR, AERIENE IIZ 
适应 度 比 例 选 择 、 交 文 、 粟 开机 制 ， 以 及 对 狐 产 生 的 适应 度 较 低 的 
个 体 立 即 抛弃 的 菏 略 ， 使 得 蝇 于 种 和 群 平 均 适应 度 的 个 体 在 下 一 代 中 
得 到 较 大 的 生存 机 会 ， 这 样 不 断 地 和 妈 代 进行 ， 一 旦 某 些 个 体 取样 在 
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种 群 中 占 优势 ， 传 统 遗 传 算法 就 会 哩 化 这 种 优势 ， 从 而 使 得 搜索 汽 
围 迅 速 变 罕 ， 产 生 “ 近 亲 索 殉 ”， 大 大 影 啊 全 局 最 优 解 的 搜索 。 
3.1.6 遗传 算法 的 应 用 现状 

赴 传 算法 提供 了 一 种 求解 复杂 系统 优化 问题 的 通用 框架 ， 它 不 
依 顿 于 求解 问题 的 具体 领域 ， 且 对 问题 的 种 类 有 很 强 的 鲁 棒 性 ， 所 
以 被 广泛 应 用 于 很 多 领域 。 下 四 是 遗传 算法 的 一 些 主要 应 用 领域 。 

1. 函数 优化 

函数 优化 是 遗传 算法 的 经 典 应 用 领域 ， 也 是 对 遗传 算法 进行 性 
能 评价 的 章 用 算 例 。 尤 其 是 对 于 一 些 非 线 性 、 多 模型 、 多 目标 的 辑 
数 优化 问题 ， 用 其 他 优化 方法 较 难 求解 ， 而 通过 遗传 算法 却 可 以 方 
便 地 得 到 较 好 的 结论 。 

2. 组 合 优化 

对 于 复杂 的 组 合 优化 问题 ， 在 现 有 条 件 下 有 时 很 难 其 全 不 可 能 
得 到 精确 最 优 解 ， 因 此 ， 找 到 渍 意 解 成 为 了 解决 该 类 问题 的 有 效 手 
段 。 半 传 算 法 是 寻求 这 种 满意 解 的 最 住 工具 之 一 ， 并 有 日 对 组 合 优化 
中 的 NP 完全 问题 非常 有 效 。 

3. 生产 调度 问题 

生产 调度 问题 在 计 多 情况 下 建立 起 来 的 数学 模型 部 难以 求 得 精 
人 确 解 ， 遗 传 算 法 是 解决 该 类 问题 的 有 效 工 具 。 例 如 ， 在 流水 线 生 产 
和 车间 调 度 、 生 产 规划 、 任 务 分 配 等 方面 的 有 效应 用 。 

4. 目 动 控制 

遗传 算法 在 目 动 控制 领域 解决 优化 问题 方面 显示 了 民 好 的 效 
果 ， 例 如 基于 遗传 算法 的 模糊 控制 鼎 优 化 设计 、 利 用 遗传 算法 进行 
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入 工 网 络 的 结构 优化 议 计 和 权 信 学习 等 。 
5. 机 器 人 智能 控制 


机 如 人 是 一 类 复杂 的 难以 精确 建 模 的 人 工 系 统 ， 而 站 传 算 法 的 
起 源 束 来 日 于 对 人 工 目 适应 系统 的 研究 ， 因 此 机 各 人 乔 能 控制 古 送 
传 算法 的 一 个 重要 应 用 领域 。 


6. 图 像 处 理 和 模式 识别 


图 像 处 理 和 模式 误 列 十 计算 机 视 完 中 的 一 个 重要 研究 领域 ， 如 
何 使 图 像 处 理 过 程 中 的 误 到 最 小 是 遗传 算法 在 图 像 处 理 中 进行 优化 
计算 的 主要 目的 。 目 前 壮 传 所 法 在 图 像 恢复 、 图 像 边 经 特征 提取 、 
儿 何 形状 误 列 等 方面 得 到 了 应 用 。 


7. 人 工 生命 


人 工 生命 与 遗传 得 法 有 看 密切 的 关系 ， 基 于 遗传 算法 的 进化 模 
型 古人 研究 人 工 生 命 现象 的 睾 要 理论 基础 。 虽然 人 工 生 命 的 研究 尚 处 
于 局 家 阶段 ， 但 遗传 复 法 已 显示 了 其 早 越 的 应 用 能 力 。 可 以 预见 ， 
在 未 来 的 研究 发 展 中 ， 壮 传 算法 在 人 工 生 命 领域 中 的 应 用 将 得 到 更 
为 深入 的 友 展 。 


8. 遗传 程序 设计 
遗传 程序 设计 是 研究 对 所 进行 的 遗传 操作 自动 生成 计算 机 程 


序 的 领域 ， 它 与 遗传 算法 的 基本 思想 相似 ， 是 遗传 复 法 应 用 的 领 
域 之 一 。 

9. 机 器 学 习 

基于 遗传 算法 的 机 硕 学 习 ， 特 别 是 分 关 志 系统， 在 许多 领域 中 


都 得 到 了 应 用 。 例 如 ， 基 于 遗传 算法 的 机 器 学 习 可 用 于 调整 人 工 神 
经 网 络 的 连接 权 ， 也 可 以 用 于 神经 网 络 结构 的 优化 设计 等 。 
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3.1.7 遗传 算法 的 改进 
基本 踪 传 算法 具有 目 组 织 性 、 目 适应 性 、 并 行 性 、 不 确定 性 等 
特点 ， 但 是 它 也 存在 一 些 不 足 ， 如 遗传 算法 的 局 部 搜索 能 力 震 ， 容 
多 出现 早 丈 现象 ， 使 得 收敛 性 能 下 降 ， 极 大 影响 隐 法 的 搜索 效率 。 
因此 众多 学 者 一 下 致力 于 改进 中 传 算 法 ， 提 高 算法 的 计算 效率 。 通 
常 的 改进 思路 有 以 下 两 种 。 
1. 基本 结构 的 改进 


主要 是 对 遗传 算法 的 基本 结构 进行 改进 ， 如 编码 方式 、 探 制 
参数 、 人 初始 种 群 、 选 择 操 作 、 交 叉 操 作 、 变 天 操作 等 进行 了 深入 
的 探究 ; 或 痢 针 对 适应 值 函 数 引 入 J 了 动态 束 上 略 和 目 适 应 策略 以 改 
E mk RIAM EBEE. Cedric Notredame(1996) 在 遗传 算法 中 对 22 
种 交叉 变 开 算 子 应 用 了 一 个 目 动 调度 机 制 ; 刘 立 方 和 霍 红 卫 (2006) 
又 提出 六 种 新 的 遗传 算 子 ，Fan(2012) 提 出 智能 算 子 在 遗传 算法 中 
的 应 用 ; 司 全 洛 琶 (2006) 近 出 择优 使 用 鼻子 和 优化 鼻 于 组 合 的 宁 
W*: C. Goondro(2007)iA 23 4] 4 ARTE HP] Jc tic EL xe Un] E 56 22; EP] MC 
SIG BE, x8 w BER rea PE Be 99 B Dot o SCRI BE I ee GRE HII E, DA] 
此 他 提出 了 一 种 新 的 初始 化 种 群 的 方法 , 以 增高 初始 种 群 的 适应 度 
(E; Fernando Jose Mateus da Silva(2009) 近 出 了 将 局 部 最 优 搜索 融 
入 遗传 算法 中 的 新 算法 ， 提 高 了 算法 的 准确 度 ; 胡 桂 武 (2004) 提 出 
了 一 种 基于 遗传 算法 与 星 比 对 算法 的 多 序列 比 对 混合 算法 ; a AE 
(2006) 提 出 了 一 种 多 搜索 策略 的 多 生物 序列 比 对 目 适 应 遗传 复 法 ， 
这 种 算法 是 通过 调整 赵 传 鼻 法 中 的 交 文 率 和 变 卉 鞭 从 而 避免 算法 
找到 局 部 最 优 而 提出 的 一 种 算法 。 以 上 种 种 改进 使 遗传 算法 有 了 
很 多 不 同 的 算法 模型 和 算法 流程 ， 但 其 大 概 沅 程 都 没有 脱离 原 有 
的 算法 流程 。 在 本 书 第 4 曹 中 的 遗传 算法 改进 台 是 基于 基本 结构 的 
优化 改进 。 
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2. 混合 踪 传 算法 


近年 来 ， 许 多 学 者 提出 通过 将 遗传 算法 与 其 他 优化 算法 相 结 合 
的 方法 ， 来 避免 基本 遗传 算法 所 出 现 的 一 些 缺 点 。 深 旭 等 将 遗传 算 
法 和 模拟 退火 算法 结合 ， 提 出 遗传 退火 混合 算法 ; 深 艳 春 等 在 隐 马 
尔 科 夫 (HMM) 模 型 中 结合 了 粒子 群 优 化 和 模拟 退火 进行 学 习 ， 并 有 量 
在 训练 过 程 中 结合 人 工 免 疫 策 略 ;， 张 维 存 等 将 蚁 群 算法 和 遗传 算法 
结合 ， 提 出 主 从 递减 结构 的 蚁 群 遗 传 算法 ; 廖 波 等 也 将 蚁 群 算法 和 
遗传 算法 结合 起 来 解决 多 序列 比 对 问题 ， 张 维 梅 (2008) 提 出 了 一 种 
基于 遗传 算法 和 蚁 和 群 算 法 的 多 重 序列 比 对 算法 ， 这 种 算法 是 将 蚁 群 
算法 作为 局 部 搜索 的 一 种 算法 。 还 有 其 他 比较 常见 的 混合 遗传 算法 ， 
如 免疫 遗传 算法 、 小 生境 遗传 算法 、 量 子 遗 传 算 法 、DNA 遗传 算法 、 
病毒 遗传 算法 、 并 行 混合 遗传 算法 等 。 


29.2 hr Y BREDLIE SA 1E 


32] 基本 粒子 群 优化 算法 


粒子 群 优化 (PSO) 算 法 最 早 是 由 天 国 心理 学 家 James Kennedy 和 
电器 工程 师 Russell Eberhart 于 1995 年 提出 的 一 种 基于 群体 智能 的 优 
化 算法 站， 该 算法 源 于 对 人 工 生 命 和 鸟 群 、 鱼 群 等 生物 种 群 疯 食 行 
为 的 研究 。 设想 这 样 一 个 场景 : 一 和 群 乌 在 随机 搜寻 食物 ， 在 这 个 区 
域 里 只 有 一 芯 食 物 ,， 所 有 的 乌 都 不 知道 食物 在 哪里 ,但 是 它们 知道 
当前 的 位 置 离 食物 还 有 多 远 , 那么 找到 食物 的 最 优 东 上 略 是 什么 ”最 
人 简单 有 效 的 方法 束 是 搜寻 目前 离 食物 最 近 的 乌 的 周围 区 域 。 

PSO 算法 融 从 这 种 生物 种 群 行为 特性 中 得 到 司 友 并 有 效 地 用 于 
求解 复杂 优化 问题 。 在 PSO 系统 中 ， 每 个 优化 问题 的 潜在 解剖 可 以 
想象 成 N 维 搜 索 容 间 上 的 一 个 尽 ， 称 之 为 “粒子 ”(particle)， 而 所 
天 的 粒子 部 有 有 一 个 饼 目标 函数 决定 的 适应 值 (fitness value)， 即 目标 
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为 数值 。 每 个 粒子 在 搜索 空间 中 以 一 定 的 速度 改行， 这 个 速度 根据 
它 本 喘 的 飞行 经 验 和 其 他 粒子 的 飞行 经 验 来 动态 调整 。 通 常 粒 子 将 
所 随 当 本 的 最 好 粒子 ， 并 经 远 代 搜索 ， 最 终 得 到 最 优 解 。 在 每 一 代 
中 ,粒子 将 跟踪 两 个 最 好 位 置 , 一 是 粒子 本 映 运 今 找到 的 最 好 位 置 ， 
称 为 个 体 最 好 (personal best, pbest) Es: 夯 一 个 为 整个 粒子 群 迄今 
为 止 找到 的 最 好 位 置 ， 称 为 全 局 最 好 (global best，gbest) 位 置 。 

其 搜索 过 程 数 学 插 述 为 : 假 议 在 一 个 X 维 的 目标 搜索 衬 间 中 ， 
HM 个 代表 潜在 问题 解 的 粒子 组 成 群体 ={X,X,,-…,X,}, 在 
时 刻 ， 第 i ATMEN XO =A, X, 0, 7, X; V 0] ,速度 为 
VAO 2 [V, (0), V, (0, V, ()] 51,2,- M. 个 体 最 好 位 置 表示 为 
P(t) -LB,0,B,().- B0). FEEDRRIAR eu dec f [vr EE DJ CA =[G (1). 
G,(.--,G,(D], H.G()-P,(0. E g 为 处 于 全 局 最 好 位 置 粒 子 
的 下 标 ， ge {1,2,…,M}。 

对 于 最 小 化 问题 ， 目 标 函 数值 越 小 ， 对 应 的 适应 值 越 好 。 交 于 
i 有 的 个 体 最 好 位 置 pbest 由 式 (3.1) 确 定 : 


PO) = i JIX;,0)] « £LEG — 1] (3.1) 
P-D JAOUEN] 
群体 的 全 局 最 好 位 置 gbest 由 式 (3.2) 和 式 (3.3) 确 定 : 
g =arg min {LF(D] 长 Ba 
G(t) — F, (t) (3.3) 
有 了 以 上 定义 ， 基 本 粒子 群 算 法 的 进化 方程 可 搞 述 为 
UD QD rom XD. Uy. 0] (3.4) 


tc, en, ,(t)-[G,(0) - X, ,(t)] 
X, (t1) 2 X, (0 V, (t1) (3.5) 
AB. Kj-7L2,-,N) ARIES. i 2E. N 为 搜索 空间 维 数 ; 下 标 
c; 为 加 速 因 子 ; ni 和 为 [0,1] 区 间 上 均匀 分 布 的 随机 数 。 
从 上 述 粒 子 进化 方程 可 以 看 出 ，ci 调 厄 粒子 飞 回 目 映 最 好 位 置 
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JAER, co 调 市 粒子 回 全 局 最 好 位 置 方 回 的 步 长 。 为 了 减少 在 
进化 过 程 中 , 粒子 离开 搜索 空间 的 可 能 性 , 玉 ; 通 弟 限 于 一 定 的 沁 围 内 ， 
BI V, , € [-V, Vu] « ADR IRR 3 8 IRI RAETE X, E [X na X max] 
p, WAREK —k.X, , OlXKkXxl10. 

粒子 位 前 更 新 公 云 G3.9) 以 速度 为 步 长 进行 更 新 ;粒子 速度 更 狐 
公式 (3.4) 可 看 成 由 三 部 分 组 成 : CORE T EIERE: QUIS 
认 知 部 分 ， 表 示 粒 子 日 喘 的 思考 ， 使 粒子 其 且 够 强 的 全 局 搜索 能 
力 ， 人 避免 局 部 极 小 ; 蚂 社 会 认 知 部 分 ， 体 现 了 粒子 则 的 信息 共 圣 。 
在 这 三 部 分 的 共同 作用 下 , 粒子 根据 历史 经 验 并 利用 信息 共 圣 机 制 ， 
不 断 调整 目 己 的 位 置 ， 以 期 望 找到 问题 的 最 优 解 。 

基本 粒子 和 格 算 法 的 初始 化 过 程 为 : 

(1) 议定 群体 规模 M. 

D IHR i js ELX Xn] ARASI Ir E X; 

(3) XER i j, Æ a n] ARAID Vijo 

(4) NE WBP-X, 

ERM T HERI NUN F : 

(1) AB UE, AT AF IBEN E AERE RETE IRM e 

(2) 计算 每 个 粒子 的 适应 值 。 

(3) 对 于 每 个 粒子 ， 将 其 适应 值 与 所 经 历 的 最 好 位 置 P, UAE IN 
值 进行 比较 ， 奋 优 于 已 的 适应 伍 ， 则 将 其 作为 当 责 的 最 好 位 首 。 

(4) 对 于 每 个 粒子 ， 将 其 适应 值 与 粒子 群 所 经 历 全 局 最 好 位 置 
G 的 适应 值 进行 比较 ， 奋 优 于 CG 的 适应 值 ， 则 将 其 作为 当前 的 全 局 
最 好 位 置 。 

(5) 根据 式 (3.4)、 式 (3.5) 对 粒子 的 速度 和 位 置 进行 更 新。 

(6) 如 未 达到 结束 条 件 [ 通 钊 为 足够 好 的 适应 值 或 达到 一 个 预 设 
ACA VA ma) JR IBI XQ). 


3.2.2 市 惯性 权重 w 的 粒子 群 优化 算法 


对 于 不 同 的 问题 ， 如 何 确定 局 部 搜索 能 力 与 全 局 搜索 能 力 的 比 
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例 关 系 ， 对 于 其 求解 过 程 非 常 重要 。 其 至 对 于 同一 问题 而 言 ， 进 化 
过 程 中 也 要 求 不 同 的 比例 。 为 此 ，Yuhui Shi 提出 了 市 有 惯性 权重 的 
改进 粒子 群 算 法 。 其 进化 方程 为 
PU Wr to al = X, (0] 
tc, «r, (f)-[G,(1) - AX,(D) 
X, (t1) 9 X, (0) V, (+1) (3.7) 
HEEREN w=1 HJ, KOSER TE RAEE ES 
程 相 同 ， 从 而 表明 带 惯性 权重 的 粒子 群 算法 是 基本 粒子 群 算法 的 扩 
E CREN w 的 取 值 范围 为 [0, 1.4], 但 实际 结果 表明 当 w 取 [0.8,1.2] 
时 ， 算 法 的 收敛 速度 更 快 ， 而 当 w>1.2 时 ， 算 法 则 由 于 收敛 速度 慢 ， 
T e Ha e IN ICD RAT o 
惯性 权重 w 表明 粒子 原先 的 速度 能 在 多 大 程度 上 得 到 保留 。 假 
设 粒 子 的 初 妈 速度 非 零 ， 当 ci=c2=0 H w>0 时 ， 粒 子 将 会 加 速 直 至 
Vaax: 当 w<0， 则 粒子 将 会 减速 直人 至 0; 当 ci,cyz0 时， 情况 比较 复 
杂 ， 但 实验 结果 表明 ，w=1 时 效果 要 好 一 些 。 
TA EN ERARE A HR PI RUSE s ECT] w 有 较 好 的 全 局 搜索 能 
JJ. Wf NS vw 则 有 较 强 的 局 部 搜索 能 力 。 因 此 ， 随 看 友 代 次 数 的 增 
加 ， 惯 性 权重 w 应 不 断 减 少 ， 从 而 使 得 粒子 群 算法 在 仍 期 有 较 踢 的 全 
局 收 化 能 力 ， 而 在 坚 期 具有 较 强 的 局 部 收敛 有 能力。 惯性 W NEIE 
w(f) 20.9 — 一 > 0.4 (3.8) 


(5.6) 


NP, fax 为 最 大 运 代 步 数 (或 称 为 最 大 进化 代数 )。 
这 样 ， 将 惯性 权重 w 看 作 适 代 次 数 的 图 数 ， 可 从 0.9 到 0.4 线 
性 减少 ， 从 对 四 个 主要 测试 函数 的 测试 结果 来 看 ， 效 果 很 好 。 
Huj, HX PSO 算法 的 研究 大 多 以 市 惯性 权重 的 PSO 算法 为 
基础 进行 扩展 和 修正 。 为 此 ， 在 大 多 数 文献 中 将 市 惯性 权重 的 PSO 
算法 称 为 PSO 算法 的 标准 版 本 或 镜 称 标准 PSO(SPSO); 而 将 基本 
PSO 算法 称 为 PSO 的 初始 版 本 。 
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Clerc EEH P de HT MARTER. 该 方法 拍 述 了 一 种 
选择 w, cil co 的 什 的 方法 ， 以 硝 剑 算法 收 仇 。 通 过 正确 地 选择 这 
些 控 制 参数 ， 束 没有 必要 将 Vi PE BREITE Vmax mal H o P FE 
先 讨 论 一 个 与 市 有 收缩 因 了 于 的 籽 子 群 算法 相关 的 收敛 模式 特例 。 

一 个 与 未 个 收 伊 模式 相符 合 的 改进 了 的 速率 方程 式 以 下 述 形 陈 


(1 T 1) x t Us (f) +C- hj (f) E; (f) u P oF (7)| 十 


uw (3.9) 
€, en (D) *[G,(0) - XQ) 


式 中 
2 DN 
y= m (l=c tcl »4) (3.10) 
2 -1- AP -4l 
设 c176772.05, 将 I^ cl 十 cz=4.1 代入 式 (3.10), 得 出 y= 0.7298 并 
代入 式 (3.9)， 结 果 为 
V, (t1) 20.7298(V, (A) +2.05x7 (0) LP. O- X, ,(0] 
2.05xr, (0) -[G,(0 - X, O 


因为 2.0$X 0.7298-1.4961, 所 以 这 个 方程 式 与 在 改进 的 PSO 3€ 

率 更 新 方程 使 用 cj=cs=1.4961 和 w=0.7298 所 得 到 的 方程 式 是 等 价 的 。 

Eberhart 和 Shi 将 分 别 利用 Vy 和 收 近 因 了 于 来 控制 粒子 速度 的 

两 种 算法 性 能 做 了 比较 。 结 果 表 明 ， 后 者 比 前 者 通 第 具有 更 好 的 收 伍 

速率 。 然 而 在 有 些 测试 函数 的 求解 过 程 中 ， 使 用 收缩 因子 的 PSO 在 
给 定 友 代 次数 内 无 法 达到 全 局 极 人 点 。 按 照 Eberhart 和 Shi 的 观点 ， 

这 是 由 于 微粒 偏离 所 期 望 的 搜索 空间 太 远 而 造成 的 。 为 了 降低 这 种 影 

啊 ， 他 们 建议 在 使 用 收缩 因子 时 首先 对 算法 进行 限定 ， 如 设 参数 

Viwax 一 Xmax， 或 者 预先 设置 搜索 空间 的 大 小 。 这 样 可 以 改进 算法 对 所 有 
测试 函数 的 求解 性 能 ， 不 管 是 在 收 伍 速率 方面 还 是 在 搜索 能 力 方面 。 
至 于 其 他 的 改进 算法 ， 第 2 革 已 有 详细 讨论 ， 这 里 不 再 袭 述 。 
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3.3” 量 了 于 粒 了 于 群 优化 算法 


33.1] 5 势 阱 模型 的 建立 


在 量子 衬 间 中 ， 镁 子 的 速度 和 位 置 是 不 能 同时 确定 的 ， 因 此 糙 
子 的 状态 必须 用 所 谓 的 波 函 数 w(X,t) 来 描述 , 其 中 对 = (x,y,z) 是 粒 
子 在 三 维 空间 中 的 位 置 向 量 。 波 函数 的 物理 意义 是 : 波 函 数 模 的 平 
方 是 粒子 在 空间 某 一 点 出 现 的 概率 密度 ， 即 

wx dxdydz = Odxdydz (3.12) 
当然 ， 这 个 概率 分 布 密度 函数 满足 以 下 归 一 化 条 件 : 


[lvl axàydz = (^ Qdxáyaz =1 (3.13) 
在 量子 空间 中 粒子 运动 的 动力 学 方程 是 Schródinger FFE, BN 
ih Qc ,1) = HY(X.,n) (3.14) 


RP, HERRAT: APAK 
哈密 顿 算 子 刀具 有 以 下 形式 ; 
[sR V(X) (3.15) 
2m 
AP, m 是 粒子 的 质量 ; V(X) 是 粒子 所 在 的 势 场 。 
现在 假定 粒子 群 系统 是 一 个 量子 粒子 系统 ， 每 一 个 粒子 具有 量 
子 行为 ， 由 波 函 数 来 描述 其 状态 。 根 据 PSO 算法 中 粒子 收敛 行为 的 
分 析 ， 必 然 存在 以 点 p, 为 中 心 某 种 形式 的 吸引 势 。 为 简单 起 见 ， 先 
考虑 单个 粒子 在 一 维 空间 中 运动 的 情形 ， 并 且 将 p, 记 为 P， 粒 子 的 
位 置 为 X。 在 p 点 建立 一 维 6 势 阱 ， 其 势能 函数 表示 为 
V (x)=-(X - p) = -70(7) (3.16) 
AB, Y=X-p; mm 为 粒子 的 质量 。 
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因此 该 问题 的 哈密 顿 算 子 为 


^ h^ d 
Å =-—.— «x 3.17 
r O) (3.17) 
粒子 在 和 势 阱 中 的 定 态 Schrödinger 方程 为 
TY a 0 (3.18) 


式 中 , 天 是 粒子 的 能 量 。 
于 是 得 到 以 下 定理 。 
定理 3.1: 粒子 在 以 点 为 中 心 的 一 维 6 势 阱 中 运动 ,对 应 的 定 
A Schrödinger 方程 的 解 为 
Y) = —= e "4 3.19 
yY) T° (3.19) 


AP, L-VB-Rmy. 
证 明 : 对 式 G3.18) 两 边 求 积分 | dY, "4e o 时 可 得 
Amy 


y (0)-w(0)-- 7; y (0) (3.20) 

MYz0, XQ.18)n] 5 2g 
dw ou "" 
iy? B'v -0 (3.21) 


Am, 
B - A -2mE[Rh (E « 0) 


为 了 满 正 束缚 仿 条 件 : 


29. y — 0 (3.22) 
式 (3.21) 的 解 必须 具有 以 下 形式 : 
w(Y)-e^  (Y20) (3.23) 


H T UR PRU LT AE DG AR TEQ.22). BRIGXX Q2 DIIS EJ 
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Ae 了 >0 n 
y(7) = | pde (3.24) 
RP, A 是 归 一 化 常数 。 
根据 条 件 式 (3.20) 可 得 
-24B —— — A (3.25) 
这 样 得 到 
B - my[T (3.26) 
以 及 
Ku n EE HE (3.27) 
2m 2h 
函数 yw(7) W E RFR E A A, B 
[ lwo) ar =|4 /B=1 (8.28) 


PEBHM=VA> L-po T 39 KR. 代入 式 
(3.24)， 则 归 一 波 函数 表示 为 


y) xxi ' (3.29) 


相应 的 概率 密度 函数 O 为 


OY) 2 |v(Y us gt (3.30) 
概率 分 布 函数 2 
F(Y)-1-e 0/2 (3.31) 
证 毕 。 
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3.3.2 粒子 的 基本 进化 方程 


从 定理 3.1 的 证 明 过 程 ， 得 到 了 粒子 在 一 维 6 势 阱 的 量子 束缚 
态 波 困 数 和 相应 的 位 置 概率 分 布 图 数 。 在 实际 的 算法 设计 中 ， 为 评 
价 适 应 值 (目标 函数 值 )， 需 要 了 解 粒 子 精确 的 位 置 。 而 星子 状态 函 
数 y 芒 仅仅 给 出 粒子 出 现在 相对 于 p AME 了 的 概率 密度 函数 
[wz £& QQ) 。 因 此 必须 给 出 粒子 的 位 置 ， 将 量子 状态 声 缩 到 经 
典 状 态 。 此 时 ， 可 以 通过 索 特 卡 罗 随 机 模拟 的 方式 来 测量 粒子 的 位 
章 ， 这 种 方法 好 比 对 粒子 进行 担 照 ， 在 按 快 门 的 一 瞬间 粒子 的 位 置 
束 伞 定格 在 照搬 上 了 。 这 里 采用 的 肝 特 卡 多 方法 义 称 为 地 变换 法 ， 
这 是 针对 概率 分 布 函 数 形式 比较 简单 的 情况 下 最 彰 用 的 随机 模拟 方 
法 。 推 导 过 程 如 定理 3.2。 

定理 3.2: 粒子 在 以 点 为 中 心 的 一 维 6 势 阱 中 运动 ， 其 位 置 
由 以 下 随机 方程 确定 ， 即 


X=ptŁż = nau) (3.32) 


XB. L-MyB-WÉ[my: u 为 区 间 (0,1) 上 的 均匀 分 布 随 机 数 ， 即 
u ~ U (0,1) 


证 明 : 4 v 是 在 区 间 (0,1) 上 均匀 分 布 的 随机 数 ， 即 


v ~ U(0,1) (3.33) 
H v 代替 式 (3.31) 中 的 左边 ， 即 令 
1-v21-7(Y) (3.54) 
HT1-v-U(01). $u=1-v, WA u~U(0,1). TÆ 4 I 
u = e Tr (3.35) 
用 逆 变 换 求 出 了 
Y= += 0n) (3.36) 


HTY-X-p,. ， 因 此 可 以 测量 粒子 的 位 置 的 随机 方程 : 
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X=pŁ = In(1/u) (3.37) 


式 中 , u 是 (0,1) 区 间 的 均匀 分 布 的 随机 数 。 
证 毕 。 

式 (3.32) 是 量子 行为 粒子 群 算法 的 基本 进化 方程 , HB LIES 
嘲 的 特征 长 度 ， 是 进化 方程 中 最 重要 的 参量 。 


3333 QPSO 算法 的 流程 


EA N 维 的 目标 搜索 空间 中 ，QPSO 算法 由 YM 个 代表 潜在 问 
题解 的 粒子 组 成 群体 对 = (X,,X,, Xu Æ tZ, 第 i 个 粒子 位 置 
A X,( =[XX,1(0), XO X; 40] P912, M, MTERA RE In] 
Hi. T ASApCUT EC P) 2 [2,Q0) P.) 到 w(O]， 和 群体 的 全 局 
T LE G(O-[G (DC (0, -CAL HEORPA, XU gA 
处 于 全 局 最 好 位 置 粒 子 的 下 标 ， ge {1,2,-…,M}。 

对 于 最 小 化 问题 ， 目 标 图 数值 越 小 ， 对 应 的 适应 值 越 好 。 粒 子 
的 个 体 最 好 位 置 pbest 由 下 式 人 确定 : 


Pe) = In KO) JR ws (3.38) 
P(t-) f[X,Q(]2 fL£a-1] 
群体 的 全 局 最 好 位 置 gbest 由 式 (3.2) 和 式 (3.3) 确 定 : 
g =arg min {f[P O] EE) 
G(r) = P, (6) (3.40) 


4 

p, O=). P A+- AGOA 6,(0-U(0.) 84A) 
则 粒子 的 更 新 方程 为 
X, (t1) p, (£a |p, (0)— X, On| Yu, (1) |u, O - U(0.1) 3.42) 
或 
X, (1*1) 7 p, (0 £a-|C,Q) — X, O| -Mn[ V/u, (2) |, , ~ U(0,1) (3.43) 
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式 中 ， 
C(t)- (60.0.0... C, 0) 3 P) 


d " o] M n | 2M g 
- (FÈR, (t), 722 EU p22 S CO | 


以 下 是 QPSO 算法 的 执行 过 程 : 

(1) 在 问题 空间 中 初始 化 粒子 群 中 粒子 的 位 置 。 

(2) 根据 式 (3.44) 计 算 粒 子 群 的 平均 最 优 位 置 。 

(3) 计算 粒子 的 当前 适应 值 ， 并 与 前 一 次 迭代 的 适应 值 比较 ， 
如 和 菏 当 前 适应 值 小 于 前 一 次 迭代 的 适应 伍 ， 则 根据 粒子 的 位 置 更 
AMTK ME. MUR SXG SERO WM PE) 
X (t+1)- 

(4) 计算 群体 当前 的 全 局 最 优 位 站， 即 G(1)=P()，g= 
arg min {J [FD] - 

(5) 比较 当前 全 局 最 优 位置 与 前 一 次 迭代 的 全 局 最 优 位 置 ， 如 
果 当 前 全 局 最 优 位 置 的 位 置 较 好 ， 则 群体 的 全 局 最 优 位 置 更 新 为 它 
的 值 。 

(6) 对 粒子 的 每 一 维 , 根据 式 (3.41) 计 算得 到 一 个 随机 点 的 位 置 。 

(7) 根据 式 (3.42) 或 式 (3.43) 计 算 粒 子 的 新 的 位 置 。 

(8) 重复 步骤 (2)~~(7)， 直 人 至 满足 一 定 的 循环 结束 条 件 。 


3.3.4 QPSO 算法 的 收 合 性 分 析 


自 先 给 出 一 些 判 列 算法 收敛 的 定义 : 
定义 3.1: 局 部 搜索 算法 一 一 只 能 保证 搜索 到 目标 函数 的 局 部 


(3.44) 


最 优 解 的 算法 。 
定义 3.2: 全 局 搜索 算法 一 一 能 够 保证 搜索 到 目标 函数 的 全 局 
最 优 解 的 算法 。 


Solis 和 Wets 人 研究 了 随机 搜索 算法 的 收敛 性 ， 特 别 是 研究 了 抽 
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象 随机 搜索 算法 ， 并 给 出 了 算法 属于 全 局 搜索 算法 还 是 仅 属于 局 部 
搜索 算法 的 标准 。 


1. 全 局 搜索 算法 的 收 仇 准则 


定义 3.3: 对 于 最 优化 问题 给 定 一 个 目标 图 数 ,六 它 的 解 至 间 是 
M R” $| R KER, SZER' 的 一 个 于 集 。 YES 中 寻找 一 个 点 2， 能 4 
使 得 图 数 ,j 的 但 最 小 化 或 者 至 少 能 够 生成 一 个 函数 JE 在 9 上 的 可 接受 
HJ P1487; o 

这 个 定义 给 出 了 一 个 全 局 优化 算法 在 给 定 目标 函数 和 搜索 空间 
的 情况 下 必须 能 够 产生 输出 。 能 够 完成 这 个 任务 的 最 简单 随机 算法 
古 基本 随机 搜索 算法 。 在 第 1 步 达 代 ， 算 法 需要 一 个 三 元 组 的 概率 
T(R”, B，W)， 其 中 是 B 上 的 概率 测度 (对 应 于 及 "上 的 分 布 
KRO. B 是 R” 的 子 集 组 成 的 Borel 0 域 。 定义 概率 测度 的 文 撑 
RN M,» M) MM, 束 是 在 概率 测度 Ww 下 以 测度 1 最 小 闭 子 集 。 

随机 算法 的 基本 框架 如 下 : 

(1) 随机 选择 蕊 始点 2 sg ， 并 放置 t0. 

Q) 在 样本 空间 (R”,B,W) 上 生成 6。 

(3) 计算 z ,= D(z,,E)， 选 择 1，， 令 ttl, #1). 

其 中 D 是 可 以 在 问题 空间 产生 一 个 解 的 图 数 (或 算 子 )， 能 全 证 
万 所 产生 的 新 个 体 优 于 当前 个 体 ， 因 此 ， 随 机 算法 应 满 征 以 下 假 父 : 

假设 3.1: f(D(z,6)< f(z)HéeS,， 则 

f (X.$)) & f (0) (3.45) 

不 同 的 D WARR TARRAA, BEALL Eat 3.1 
以 保证 优化 算法 的 正确 运行 。 

任何 算法 的 全 局 收敛 意味 看 序列 {f(z,)}_ AAT ER ZIC f£ E S 
上 的 下 确 夫 。 一 个 病态 的 例子 是 一 个 函数 的 最 小 值 点 在 它 的 加 断 点 
的 话 ， 其 Lebesgue 测度 为 0， 对 于 任何 随机 算法 而 言 ， 几 乎 不 可 能 
搜索 到 全 局 最 优 解 ， 如 下 和 耐 的 函数 : 
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Ix | Vxzl | | 
di P x=] jiii 
KRIS HIENEN f(ü0)--10. 
因此 为 了 避免 出 现 上 面 所 述 的 病态 情况 ， 将 搜索 的 目标 变 为 搜 
ZA h.t o: 
9 -inf(k:v[ze S| f(z) « k]» 0) (3.47) 
AP, A EERS A 上 的 Lebesgue 测度 。 
式 (3.47) 表 明 搜 索 空间 的 一 个 子 集 必定 有 不 止 一 个 点 使 函数 值 
以 任意 的 方式 接近 gp ， 这 样 p WEATER H v 测度 集 上 得 到 的 函数 
值 的 下 界 。 和 典型 情况 是 ，L4] 是 集合 4 的 一 个 球 维 空间 。 通 过 定义 
一 个 新 的 下 界 使 得 在 搜索 空间 内 始终 有 一 个 任意 小 的 非 空 集合 围 纸 
看 包含 5 的 空间 ， 可 以 使 得 gp 避免 了 上 上面 提 到 的 病态 的 情形 。 这 种 
方法 使 得 算法 可 以 接近 下 界 而 无 顷 遇 历 $ 中 的 每 一 个 点 。 
定义 算法 的 可 接受 区 域 为 
R, -Ize S|f(z) «e &el (3.48) 
AB, &e»0. 
如 果 算 法 友 现 RR PRR DUEKELIZTESU TIREN e 的 可 接受 点 。 
一 个 局 部 收敛 算法 是 指 对 于 测度 序列 上 ， 文 撑 集 序列 MA ， 除了 
有 限 个 集合 外 ， 都 有 界 且 M cS 。 因 此 ， 局 部 收敛 算法 的 支撑 集 满 
A VSOM,]«wS]. tut JT SR Ax REIP) SEAT belli] S&— ELA 
被 访问 到 ， 即 一 个 真正 的 全 局 收敛 算法 应 该 满足 下 面 的 假设 : 
假设 3.2: 对 于 5 的 任意 Borel 子 集 4， 若 其 测度 v[4] >0， 则 有 


IIGQ- 4) 20 (3.49) 


Arm, uA] ze BUE u, IFRI A IME 
AMAREN TL ECUU SEA v 的 任意 一 个 4 的 子 集 来 说 ， 如 林 
及 用 随机 取样 的 方法 (如 上 面 近 到 的 6 )， 那 么 它 重 复 铬 过 集合 4 的 
99 


E 上 篇 多 序列 比 对 基础 篇 ， 


概率 必定 为 00 HFR cS ， 上 所 有 在 可 接受 区 域 取 得 点 的 概率 肯定 
是 非 零 值 。 
利用 假设 31 和 3.2 可 以 给 出 随机 算法 为 全 局 收敛 算法 的 充 要 
条 件 。 
定理 3.3: 假设 目标 函数 了 为 可 测 函 数 ， 区 域 S 是 R” 的 可 测 子 
集 ， 假 设 3.1 和 3.2 满足 ， 设 {z,} ,为 算法 生成 的 解 序 列 ， 可 得 
lim P[z € R,]=1 (3.50) 


APF, Piz e R | 是 第 1 步 算 法 生成 的 解 ze R 的 概率 。 
通过 全 局 搜索 的 定理 可 以 找到 满足 假 议 3.1 和 假设 3.2 的 全 局 优 
AIRE. 


2. 局 部 扫 索 算法 的 收敛 准则 


上 上 和 面 介绍 了 一 个 算法 满足 随机 全 局 搜索 算法 再 要 的 条 件 。 虽 然 
基本 随机 搜索 算法 可 以 满 站 相应 的 条 件 ， 但 是 由 于 搜索 速度 太 慢 而 
很 难 作 为 一 个 实际 的 算法 。 局 部 搜索 鼻 法 具有 较 快 的 收敛 速度 ， 但 
以 牺牲 找 不 到 全 局 解 为 代价 。 本 部 分 将 会 给 出 局 部 搜索 算法 的 收 全 
准则 。 

对 于 不 能 满足 假设 3.2 的 算法 来 说 ， 可 以 定义 局 部 搜索 条 件 
如 下 : 

假设 3.3: x TEE z,eS. ffiky»20, 0«nzl, W1: 

Lu K(dist(D(z. 6). R.) < dist(z, R.) - y) or (D(z,6)e R))) 27 (3.51) 
对 于 所 有 的 t 和 集合 I={ze S| fi) € f) z nor. 其中， 
dist(z, A 表示 点 z 与 集合 4 之 则 的 距离 ， 定 义 为 

dist(z, A) = Inf dist(z,b) (3.52) 

因此 一 个 局 部 收敛 得法 可 以 定义 为 ， 存 在 一 个 非 专 数 1 MA 

TE RE — PARTE Ja n] UE xi z YET 2 gc RELIER AS y Ji Xr e DG D D, 

或 者 点 z 已 经 在 最 优 区 域 的 情况 下 以 概率 大 于 或 等 于 7 。 结 合 假设 
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3.1、3.2， 给 出 随机 算法 为 局 部 收敛 算法 的 一 个 充 要 条 件 。 

定理 3.4: 假定 目标 孔 数 了 为 可 测 函 数 ， 区 域 5 为 R" 下 的 可 测 
子 集 ， 并 且 假 设 3.1 和 3.3 WE, wiz 上 为 算法 所 生成 的 解 序列 ， 
则 lim P[z, e ]-1, HP, Piz e RER t ERRER z e R, 
的 概率 ， 区 域 R KRAE — Jed B D ELA H1] e 可 接受 区 域 。 


3. QPSO 算法 的 全 局 收 伍 性 


Van den Bersh 指 出 PSO 算 法 既 不 是 一 个 局 部 收敛 算法 也 不 是 一 
个 全 局 收敛 算法 。 为 了 证 明 QPSO 的 全 局 收敛 性 ， 将 QPSO 算法 置 
于 全 局 随机 搜索 算法 的 框架 中 ， 以 定理 3.3 的 结论 进行 证 明 ， 因 此 
项 要 证 明 QPSO 算法 能 满足 假 议 3.1 和 假设 3.2。 

引 理 3.1: QPSO 算法 满足 假 议 3.1。 

证 明 : 根据 式 (3.1)， 函 数 D( 在 假设 3.1 中 提 到 ) 在 QPSO 算法 中 
的 描述 可 以 定义 为 

rmt f (apps) Z f (P71) 


D(F, Xa) -| z 
app(x,) (app(x;,)) < (DP,i) 
式 中 ，app(x, ,) 表 示 app 的 具体 应 用 ， 它 通过 QPSO 算法 的 迄 代 更 
IAT. HX Q.54) 3: X G.55)g X... TEE x, (0 Hl x, ,来 表示 ，t WAR 
法 的 迭代 次 数 。 上 面 的 内 容 已 经 写 明 对 每 一 次 迭代 n 的 依赖 关系 。 
序列 (P. ,}_, 是 所 有 粒子 从 开始 到 第 1 次 迭代 步 ( 包 括 第 1 次 迭代 ) 所 到 
达 的 最 好 的 位 置 序列 。 
可 以 将 xx,, 作为 连续 应 用 函数 g 得 到 的 计算 结果 ， 即 
Xi = app(x,,) (3.54) 
app 是 一 个 天 量 图 数 ， 用 appQX,,) , RRAZ app 的 第 j 9e, H 
| | (3.55) 
MERE 


app(,,), -6 ,,EL;, (1-6 0H ju t oC, E. 
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AP, C 是 平均 最 优 位 置 C 在 第 1 次 迭代 的 第 j 维 ; o, 是 服从 (0,1) 
均匀 分 布 的 随机 序列 。 

按照 算法 的 定义 ， 厅 列 P ,是 单调 ， 因 此 D 的 定义 显然 是 符合 
假设 3.1 的 。 证 毕 

引 理 3.22: QPSO 算法 满足 假设 3.2。 

证 明 : 在 上 面 的 曾 述 中 ， 在 任 蔓 一 个 迭代 步履 第 字 个 粒子 的 第 


QC; ;,) — ——exp(-2]s., — Pija 
i.j.t 


[L.;.) (3.56) 


粒子 ;的 概率 密度 函数 可 以 表示 为 
| M | 
Q(x, ) 一 [| LO exp ( 


-p,l/L,) (3.57) 


定义 /4 为 对 应 于 n 维 双 指数 概率 分 布 。 因 此 ， 对 于 S 的 任意 
Borel 子 集 A, dran v[A]»0 时 ， 可 以 得 到 


| EDU DE Sues Pjs |/L "h ei dx, ,,- u ii" (3.58) 


i 


TIL 
M, = R oS (3.59) 
XU, M, Eu, TERES III SERE, EH AS M,,. 
因此 ， 可 以 得 到 


0« u,, [4]«1 (3.60) 
所 有 粒子 文 撑 的 开 集 为 
M,-U;,M, -R'5S (3.61) 


AH, M, 是 分 布 久 的 支撑 。 
E ui, PE DOSE 4 的 概率 测度 可 以 由 下 式 计算 得 到 


u|4]-1- [ [Q-a [AD (3.62) 
通过 式 (3.60)， 可 得 
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0cu[4]«lfor =L- (3.63) 
因此 可 得 
[[O- 4140 70 ev 


XRH QPSO 算法 满 下 假充 3.2。 证 毕 。 

定理 3.5: OPSO 算法 是 一 个 全 局 收敛 算法 。 

证 明 由 于 QPSO 算法 满足 假设 3.1 和 假设 3.2， 由 定理 3.3， 
可 以 得 到 QPSO 算法 是 一 个 全 局 收敛 算法 的 结论 。 证 毕 。 


3.4. QPSO 算法 的 改进 一 基于 选择 操作 
的 QPSO 算法 
341 3| 


QPSO 算法 是 一 个 较 有 友 展 前 景 的 全 局 优化 算法 ， 在 许多 实际 

应 用 领域 中 优 于 PSO 和 算法。 首先， 由 于 在 算法 中 引入 了 双 指 数 分 布 
使 得 算法 成 为 一 个 全 局 优化 算法 。 此 外 ， 在 算法 中 引入 了 平均 最 好 
位 置 C 也 对 QPSO 算法 的 性 能 改进 较 大 。 在 PSO 算法 中 ， 每 一 个 煌 
子 痢 相互 独立 地 收 伍 到 全 局 最 好 位 症 已 ， 但 征 ， 在 QPSO 算法 中 ， 
由 于 引入 了 平均 最 好 位 置 C 作为 参考 点 ， 每 个 粒子 不 能 不 顾 其 他 狗 
子 而 独立 地 癌 PP 息 聚 ,粒子 加 存在 相互 等 每 的 过 程 ， 如 图 3.4 所 示 ， 
右上 角 的 两 个 粒子 远离 已 ， 称 为 洛 后 粒 了 于 (lagged particles). J5 ST du] 
P: 粒子 当前 的 位 置 和 粒子 群 的 平均 位 置 C 之 间 的 距离 决定 了 下 一 
代 粒 子 位 置 的 分 布 。 假 如 有 洛 后 粒子 ， 平 均 最 好 位 置 C AGERE 
隆 的 个 体 最 好 位 置 拉 离 已 ， 当 洛 后 粒子 趋同 已 时 ，C 会 以 较 慢 的 速 
EKAT P., P 附近 粒子 的 位 置 与 C 之 加 的 距离 不 会 快速 地 减 小 ， 
因此 它们 的 收敛 速度 减 慢 了 ， 并 且 让 它们 临时 地 在 P 附近 进行 全 局 
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搜索 直到 落后 粒子 靠近 已 。 因 此 ， 引 入 了 平均 最 好 位 置 C 的 QPSO 
算法 不 会 放弃 任何 一 个 落后 粒子 ， 这 时 的 群体 更 具 智能 化 并 且 协 同 
工作 能 力 更 强 。 


- 
SE 落后 粒子 
= 
HOP 


EXSKE GERE 


m 


4 Jed fot 
图 3.4 QPSO 算法 中 粒子 的 等 待 效应 


与 PSO 算法 一 样 ，QPSO 算法 中 的 所 有 粒子 最 后 会 收敛 到 全 局 
最 好 位 置 P ,这 就 使 QPSO 算法 与 遗传 算法 相 比 有 较 快 的 收敛 速度 ， 
并 且 得 到 的 最 优 解 精度 比较 高 。 然 而 ， 粒 子 的 记忆 性 和 它们 对 P, 的 
收敛 性 很 容易 导致 早熟 。 如 图 3.4 所 示 ， 当 大 多 数 粒子 聚集 到 全 局 最 
好 位 置 己 附近 时 ， 落 后 的 粒子 也 会 被 拉 向 已 。 如 果 这 时 P. 在 全 局 
最 优 解 的 邻 域 内 ， 则 粒子 向 P 的 收敛 可 以 增强 对 该 邻 域 的 局 部 搜 
索 ， 从 而 提高 解 的 精度 。 但 如 果 己 位 于 局 部 最 优 解 或 次 优 解 的 邻 域 
内 ， 并 且 离 全 局 最 优 解 较 远 时 ， 粒 子 向 己 的 收敛 可 能 导致 时 熟 。 如 
果 全 局 最 优 解 或 更 好 的 解 位 于 落后 粒子 目前 所 在 区 域 ， 由 于 落后 粒 
子 以 较 大 的 概率 出 现在 P 附近 ， 很 容易 错过 全 局 最 优 解 或 更 好 的 
解 。 随 着 落后 粒子 趋向 P ， 所 有 粒子 都 开始 做 更 小 范围 内 的 局 部 搜 
索 ， 找 到 全 局 最 优 解 或 更 好 解 的 概率 就 越 来 越 小 ， 这 样 就 产生 了 里 
熟 收敛 。 

由 于 在 QPSO 算法 中 会 遇 到 上 面 的 早熟 收敛 的 现象 ， 所 以 提出 
了 在 QPSO 算法 中 加 入 两 种 选择 策略 来 避免 早熟 收敛 的 现象 。 这 种 
选择 操作 与 Angeline 提出 的 用 于 PSO 算法 的 选择 操作 不 同 , 它 是 施 
加 在 全 局 最 好 位 置 P 上 的 , 这 时 吸引 点 p, 不 是 由 了 和 PP 来 决定 , 而 
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古 由 PP 条 个 随即 选择 出 的 粒子 的 个 体 最 优 位 置 决定 。 这 典 种 选择 
策略 来 源 于 遗传 算法 中 的 钊 标 赛 选择 (tournament selection) Fite A IA 
选择 (人 roulette wheel selection). KH EREE RW Pg BJ VAT DL 
势 ， 一 是 如 果 所 有 的 粒子 聚集 在 己 附近 ， 那 么 这 些 粒 子 会 被 随机 选 
择 的 粒子 推 开 ， 使 得 粒子 和 群 早 邵 收敛 的 概率 束 会 越 来 越 小 ; 二 是 如 
和 东 随 机 选择 出 的 粒子 的 个 体 最 优 位置 比 较 接 近 于 全 局 最 优 位 置 ， 那 
么 回 它 菲 近 的 粒子 将 会 有 喝 大 的 机 会 接近 全 局 最 优 。 因 此 ， TUS 
出 具有 选择 操作 的 QPSO 算法 将 会 改善 QPSO 的 全 局 搜索 能 


3.4.2 采用 锦标 赛 选择 操作 的 QPSO 算法 (QPSO-IS) 


在 锅 标 赛 选 择 法 中 ， 随 机 地 从 种 群 中 挑选 一 定数 目的 个 体 ， 称 
为 苑 侈 规模 ， 然 后 将 最 好 的 个 体 迁 作 父 个 体 ， 这 个 过 程 重 复 进 行 完 
成 个 体 的 选择 。 在 QPSO-TS 中 ， 苋 完 规 模 为 1， 即 每 次 随机 从 种 群 
中 选择 一 个 个 体 太 计算 其 目标 函数 值 ， 并 与 当前 粒子 的 目标 函数 
(HAREE, WRF TA H ERRU, N p, H RPA PRE, 
否则 ， 疡 由 已 和 已 决 定 。 这 个 选择 操作 的 伪 代 码 描述 如 下 : 

Selection T: 

从 粒子 群 中 随机 选择 一 个 粒子 

if £(B,) < £(P.) 
Te 

else 

TE 

endif 
Return? 


通过 上 面 的 选择 操作 选 出 了 后 ，P 的 坐标 为 
D, , (0 26 E (D -- (0 —9)- T, (1) 
QPSO-TS 的 算法 过 程 描述 如 下 : 
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QPSO TS: 
在 问题 空间 中 随机 初始 化 粒子 群 中 粒子 的 位 置 : XXE]: 
TRATI NEREA: PX; 
while the stop criterion is not met do 
Compute the mean best position C[:]| by equation (2.44); 
for 1= 1 to swarm size M 
If f£(X;)-f(P; then P;7X;; Endif 
Find the Pg-arg min f(P[g][:]): 

T-Selection T; 
for j-1 to D 

Q9-—rand(0,1); u-rand(0,1); 

pillil- e*PhIBDE- e)*T[]: 

if (rand(0,1)^0.5) 

XBh]b I »BlDIE e *abscc[;]-X[1][ D Indu); 
Else 

XIDI pBlb]- e *absccp]-XT]D D*InCtUu): 
Endif 
Endfor 
Endfor 
Endwhile 


3.4.8 J H FE ft la ui TE PR IF HI QPSO SEE (QPSO-RS) 


T6 i WE XC PEIA EDN e AA P — Pls H EER o "IERI 
TARRI — AK, AEK IR] TEIG] NAA T1 T ERRAT INL— 
个 元 系 )。 然 后 产生 n AP CBS USCIRE PETRI AID), Sirr hEN 
VETE 2I ^ EECIPIADUS , MUT pce HJ T OS INLIZU 2 BLZ 45096 TH 7A e 
TE QPSO-RS RAP, Be GE E EERE HUBER — P Hk 
Jl] p, EH PRI P veES TER XETEPRTET)TATNR3 UI F : 


Selection R: 
n 为 种 群 大 小 ; 
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r 为 有 个 有 效 随机 数 ( 即 都 洛 在 区 间 内 ); 
for 1-1:n 
sum P— 0; 
j^ceilim*rand); % Æ 1 一 正之 间 的 随机 整数 
while sumP < r(1) 
sum P= sum P + P(mod(]-1,m)*1); 
j-jth 
end 
R(1) = mod(j-2,m)-^1; 
end 


Return R 


通过 上 和 而 的 选择 操作 选 出 RR 后 ，p, 的 坐标 为 
D, (0) 2 6 E (f) -(1-0)- RA 
QPSO-RS 的 算法 流程 类 似 于 QPSO-TS 的 算法 流程 ， 只 是 吸引 
点 p, 的 方程 不 同 。 
QPSO-TS 和 QPSO-RS 参数 值 的 设 定 与 QPSO 算法 一 致 。 


3.44 XLI B WCSCTE 2 Br 
1. 全 局 收敛 性 准则 


这 里 从 Solis 和 Wets 提出 的 收敛 准则 看 手 进 行 基 于 选择 操作 的 
QPSO 的 收 人 乓 性 分 析 。 下 面皮 完 定义 目标 函数 f(x) 的 一 个 最 优化 区 域 : 
R,-izes5|f(z) «0-6, (5.65) 

AU. 820; SIEGE); 9 十 有 90) 的 最 优 解 。 

假如 算法 在 最 优化 区 域 找 到 了 一 点 ， 邦 么 这 个 后 束 古 个 找到 的 
限 歼 全 局 最 小 值 的 一 个 可 接受 的 近似 值 。 

MTE m 2675 a A ze f Uf Sc Hee CE TRES T A rn BIA Ee DC 
posrp V Fae, aA GAS PIU. BAAT 
法 可 能 征 全 局 收敛 的 。 
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假设 3.4: 对 于 5 的 任意 Borel 子 集 4， 知 其 测度 v[4] > 0 ， 则 有 
LEO uta) 20 (3.66) 
AU. [A] AETHER BE uu 所 得 到 的 4 的 概率 。 
这 束 蕊 味 看 对 于 测度 大 于 0 的 任意 一 个 S$ 中 的 集合 4 来 说 ， 如 
果 采 用 随机 取样 的 方法 ， 那 么 它 无 穷 多 次 重复 错过 集合 4 的 概率 必 
定 为 0。 由 于 RcS， 暗示 了 所 有 在 最 优化 区 域 的 样本 点 的 概率 肯 
定 是 非 零 值 。 由 Solis 和 Wets 准则 得 出 下 面 的 定理 : 
定理 3.6: 假定 算法 在 每 一 步 都 有 最 优 解 ， 并 且 目 标 函 数 了 是 
可 测 函 数 ; 区 域 8 是 R2 的 可 测 子 集 ， 并 且 满 足 假 设 3.4。 E, 
为 算法 生成 的 解 序列 ， 可 得 
lim P[z, e R,]=1 (3.67) 


AP, Piz ERER k 2 SELLE UU] z, e R, IK o 
2. 基于 选择 操作 的 QPSO 算法 的 全 局 收敛 性 


下 面 的 证 明 将 基于 选择 操作 的 QPSO 算法 置 于 全 局 随机 搜索 
算法 的 框架 中 研究 ， 以 定理 3.6 的 结论 进行 证 明 。 由 于 QPSO-TS 
和 QPSO-RS 每 一 次 迭代 都 存储 了 全 局 最 优 的 位 置 ， 所 以 基于 选择 
操作 的 QPSO 算法 似乎 满足 假设 3.4。 这 里 使 用 下 标 左 取代 迭代 次 
数 MAT x, ARTE d ATOBET IE] SR J EER k DORT HIA LIS] 
量 ， 在 下 面 的 分 析 中 其 他 的 变量 用 相同 的 方式 来 表示 。 

引 理 3.3: 基于 选择 操作 的 QPSO 算法 满足 假设 3.4。 

证 明 : EERUN k, p, r MELOS T BSDLAE S, 第 i 
个 粒子 的 第 7 维 在 ktl 步 的 条 件 概 紊 密度 冰 数 为 

O(x, ji | Pij) =A L, , ,)expC-2|x 


LIE | D; jk 


/ L, 4.) (3.68) 
AH, Lk 7€ C 7x4] j 
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因此 可 以 得 到 粒子 i 的 第 j 维 在 k+l 步 的 概率 密度 函数 为 
OC jen) = [0c x, a | P, 40, dp, jn (3.69) 


RH, Op, O REESE p, 的 边缘 概率 密度 函数 ， 满 足 
Op, jr) ~ U(a, ,,.5, jr) (3.70) 
AU, a,-2mn(5,,(),,); Bjr -max(D,,.(P),,)« 
^J 0 «supL, ,, «o MAMO jen lPi) - RVEQG ual Paja) 
的 支撑 ， 可 以 得 到 Q(x, eu) 的 支撑 为 
M (x, 4,4) = MG jan Pij) UMO ) = RU[a ib rl=R 6-7) 
WR, RHAG), MO j) =la jbl A, ERE 
k+I(k>0), M(x, ,)-R- 
ANIT i AR s E KZ ARRA 


Ox, 1) — IIoc Lk) (3.72) 
所 以 OC, a) 的 支撑 可 "Tr 
M (X, 1) ES IL. M (x, j.k+l )= R xR- R -R'55 (3.73) 
XE X. LL a 73 TEL 3 8 OC Lu) 的 概率 测度 因此 对 于 8 的 任意 
Borel 子 集 P， 当 满足 二 PP]>0， 可 以 得 到 
TE | Ox, ,,,)dx, ,, — -JII0c... uda G 


因为 pc Mx, 0o ， 对 于 所 有 的 大 这 0 ，O(x 4) 是 可 积分 的 。 
因此 ， 从 式 (3.74)， 则 必定 有 


0< Hinlpl<!l (3.75) 
XHFEBPHRHEZO,. ， 可 以 得 到 所 有 粒子 文 择 的 并 集 为 
M, US MG) =R" S (5.76) 
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NP, Mi EDA Ww EIEE EHIS E. 
由 As 产生 的 对 疡 的 概 诗 训 度 可 以 由 下 陈 计 复 得 到 


Hsalp]-71-]],,0- 42b (3.77) 


式 中 ，m 为 粒子 的 个 数 。 
从 不 等 式 (3.75) 和 等 式 (3.77) 中 ， 可 以 得 到 : 对 于 =0,1,2,…， 
有 0< 信 [四 <1。 在 第 0 步 ， 在 一 个 有 界 的 区 域 M 内 初始 化 粒子 ， 
HHM cR”. WR p(1M,zó, WlO«cup]«l. filu[p]20. 
总 之 ， 可 以 得 到 下 面 的 结果 : 
TI 0- 站 =d4-mwDTI as 
=(1- m [p] -0=0 
从 式 G3.76) 可 以 得 到 基于 选择 操作 的 QPSO 算法 满足 假设 3.4。 
定理 3.7， 基 于 选择 操作 的 QPSO 算法 是 一 种 全 局 收敛 的 算法 
证 明 : 因为 基于 选择 操作 的 QPSO 算法 满足 假设 3.4， 由 定理 
3.6， 可 以 得 到 基于 选择 操作 的 QPSO 算法 是 一 种 全 局 收敛 的 算法 。 


(3.78) 


3.5 Jn 


本 章 详细 介绍 了 遗传 算法 、 粒 子 群 优化 算法 和 量子 粒子 群 优化 
算法 的 优化 过 程 及 收敛 性 分 析 ， 为 进行 多 序列 比 对 提供 理论 基础 。 
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第 4 章 BRR AEZ 
比 对 中 的 应 用 


4.1 基本 半 传 算法 模拟 多 厅 列 比 对 


411 引 


Hil 


随 大 人 类 基因 组 计划 的 实施 和 信息 技术 的 发 展 ， 生 物 序 列 数 据 
呈 焊 炸 式 增长 ， 如 何 有 效 分 析 和 处 理 这 些 大 型 序列 数据 ( 即 序列 分 析 ) 
成 为 生物 信息 学 的 首要 任务 。 序列 比 对 是 生物 序列 分 析 的 主要 方法 ， 
也 是 生物 信息 学 中 上 共有 挑战 性 的 问题 之 一 ， 其 在 序列 装配 、 序 列 注 
释 、 重 白质 的 结构 和 功能 预测、 系统 发 育 和 进化 分 析 等 方面 均 有 广 
泛 应 用 。 根 据 参 与 比 对 的 序列 数目 ， 订 列 比 对 分 为 双 序 列 比 对 和 多 
EYJ. IEE, WEHA Chuong 等 总 结 了 国内 外 近年 来 序列 
比 对 的 研究 进展 ， 认 为 双 序 列 比 对 已 有 较 成 熟 的 动态 规划 算法 ， 但 
是 多 序列 比 对 在 目前 还 缺乏 快速 而 有 效 的 算法 。 

多 序列 比 对 是 一 个 NP 完全 的 组 合 优化 问题 ， 解 决 此 问题 的 传 
统 算法 是 渐进 算法 或 迭代 算法 ， 但 是 随 看 序列 长 度 和 条 数 的 增多 ， 
时 衬 复 杂 性 急剧 上 升 ， 设 计 一 个 具有 高 敏感 、 高 精度 且 低 复杂 上 度 的 
算法 成 为 解决 生物 多 序列 比 对 的 瓶 锯 问题 。Chuong 等 在 文中 引用 
258 个 文献 对 多 序列 比 对 做 了 非常 全 面 的 综述 ， 同 时 也 分 析 并 预测 
了 未 来 该 问题 的 研究 方 同 : 虽然 多 序列 比 对 问题 已 经 研究 了 儿 十 年 ， 
日 是 多 序列 比 对 的 研究 一 直 芝 动 发 展 ， 每 一 年 都 有 数 十 个 摘 述 多 厅 
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列 比 对 狐 方 法 的 文革 发表。 最 近 的 许多 人 研究 部 表明 ， 虽 然 在 提 珊 比 
对 的 精度 和 比 对 处 理 范围 可 扩展 性 方面 都 取得 了 相当 大 的 进展 ， 但 
是 在 该 方面 仍 有 很 大 的 友 展 空 国 值得 研究 和 完善 。 

Wang 等 已 经 证 明 : 基于 SP 度量 的 多 序列 比 对 是 一 个 NP 问题 。 
实际 上 ， 除 了 个 数 较 少 友 列 较 短 的 比 对 问题 外 ， 多 序列 比 对 基本 上 
都 是 淋 用 局 发 式 算 法 。 目 前 国际 上 最 其 代表 性 的 局 发 式 算 法 有 册 大 
AJ: 渐进 比 对 和 送 代 比 对 。 由 Thompson 和 Notredame 等 开 友 的 
CLUSTALW 和 T-Coffee 是 基于 渐进 算法 最 常用 的 程序 软件 包 , 这 种 
算法 的 比 对 速度 很 快 ， 但 其 依赖 于 指导 树 的 构建 ， 敏 感性 较 才 。 碗 
代 比 对 是 另 一 类 有 效 的 多 序列 比 对 策略 ， 它 基于 一 个 能 产生 比 对 的 
算法 ， 并 通过 进 代 方 式 精 细 多 序列 比 对 ， 直 到 比 对 结果 不 绸 改进 为 
目 。 这 类 算法 不 能 提供 获得 优化 比 对 结果 的 保证 ， 速 上 度 也 不 能 和 渐 
进 算法 相 比 ， 但 却 具有 重 棒 性 和 对 比 对 序列 个 数 不 敏感 等 特性。 近 
ERK, 迭代 算法 也 被 越 来 越 多 地 应 用 到 序列 比 对 中 去 ， 如 遗传 算法 、 
蚁 群 算法 、 隐 蕊 尔 科 夫 等 。Notredame 等 首先 提出 用 遗传 算法 来 解 
决 多 友 列 比 对 问题 ， 梁 艳 春 等 在 隐 马 尔 科 夫 (HMM) 模 型 中 结合 了 将 
子 群 优化 和 模拟 退火 进行 学 习 ， 并 且 在 训练 过 程 中 结合 人 工人 免疫 乐 
略 ， 在 运行 时 间 和 SP 值 等 参数 上 得 到 了 较 好 的 效果 ; 雇 波 等 将 蚁 群 
算法 和 渐进 算法 结合 起 来 ， 解 决 多 序列 比 对 问题 ; Silva 等 提出 了 将 
局 部 最 优 搜 索 融 入 遗传 算法 中 的 狐 算 法 ， 扣 高 了 算法 的 准确 度 ; 还 
有 其 他 一 些 以 遗传 算法 为 主 的 序列 比 对 算法 ; 邹 权 和 郭 刻 和 祖 等 综述 
了 第 见 的 尼 发 式 方法 ， 除 了 鞍 传 算法 和 粒子 群 优化 算法 ， 还 有 许多 
其 他 的 局 发 式 方法 , 尽 官 在 应 用 到 多 序列 比 对 问题 上 作 了 许多 笑 试 ， 
但 中 辐 还 存在 看 一 些 十 分 难处 理 的 问题 ， 因 而 还 没有 形成 基于 这 些 
方法 的 主流 软件 。 张 任 源 等 根据 算法 性 能 分 别 比 较 了 遗传 算 法 与 粒 
子 群 优化 算法 ， 认 为 相对 于 粒子 群 优化 算法 ， 壮 传 算 法 速度 较 慢 ， 
但 不 容易 陷入 局 部 最 优 解 ， 所 以 本 章 基 于 遗传 算法 研究 多 序列 比 对 
问题 。 
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4.1.2 多 厅 列 比 对 问题 及 数学 拉 述 


一 条 长 度 为 工 的 序列 是 工 个 字符 组 成 的 字符 串 ， 和 字符 取 目 于 子 
RER {A, V, L, L F, P, M, S, T, C, W, Y, N, Q, D, E, K, R, H, G}, DIRE 
EAERI 20 个 氨基 酸 残 基 类 型 。 OP THR ERUIT], REAR N 21 
Hm S-(S.S,..S N22. $-25,5,- S,ü0&i&N),. 
SEX üuxjzxl). 1 是 第 i 条 序列 的 长 度 ， 则 一 个 序列 比 对 可 定义 
A TE A-(a)), KPIXIXN,I1xjxl max(1) € 1 < V1 a 
矩阵 必须 满足 下 列 三 个 条 件 ; 

( we X UH ， 其 中 “一 ”代表 空位 。 

(2) 滤 阵 中 的 第 i 行 去 挥 “ 一 ”后 ， 即 得 到 子 和 从 串 9 。 

(3) 窍 阵 中 不 包含 字符 全 是 空格 的 列 。 


413 自 法 议 计 
1. 编码 


根据 1.3.3 节 ， 多 序列 比 对 可 以 看 作 一 个 矩阵 (或 二 维 表 )， 每 一 
行 代表 一 个 序列 ， 每 一 列 代表 一 个 残 基 的 位 置 。 将 序列 依照 下 列 规 
则 填 入 表 中 : 

(1) 一 个 序列 所 有 残 基 的 相对 位 置 保持 不 变 。 

(2) 通过 插入 衬 位 ， 将 不 同 序列 间 相 同 或 相似 的 残 基调 事 
一 列 ， 即 尽 可 能 将 序列 间 相 同 或 相似 残 基 上 下 对 章 。 

(3) 插入 至 位 后 各 序列 的 长 度 相等 。 将 m 条 序列 比 对 结果 存放 
在 矩阵 (或 二 维 表 ) A, 中， 其 中 m 是 参加 比 对 的 序列 数 ，L 是 插入 
宝 位 后 的 序列 长 度 (简称 比 对 长 度 )。 

K 4.1 表示 6 个 短 序列 的 比 对 结果 ， 此 例 中 m-6, L-14. 


:至 同 
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表 4.1 多 序列 比 对 示例 


] 2 3 4 5 6 7 8 9 10 11 12 13 14 
I | Y Y D G G A V - E A L C A M 
I[ | Y D D -= G A L V E A L C A M 
MIF D E G G =- L V Q A G PFP —-— 
IV|F Y E G G I V V Q A V - - M 
VIY D D G G | L y = = L N 
VIL | Y Y E - G A - V Q A V C E M 


2. 适应 度 函 数 


适应 度 图 数 是 遗传 算法 与 应 用 问题 的 唯一 接口 ， 这 里 采用 最 流 
行 的 SP 作为 衡量 标准 。SP 函数 为 


1n— 


fG- > 全 3 Cost(S,. (4.1) 


P, Cost(*, *) Œ A*X A*—R 为 二 元 实 值 函 数 ， 称 式 (4.1) 的 值 为 比 
XT S 的 分 但。 
适应 度 值 越 遍 说 明 序列 比 对 效 琳 越 好 。4# 中 的 每 个 元 素 中 炬 阵 
Cost 的 具体 取信 为 
S = Score(a,a) Un AR AE ERR ATH IRI QU BO) 
Cost(S,,S.,) 24 Sa = Score(a,b) Atl AR PRA] dE AI P IRIS UG RC) 
S, = Score(a,-) —-0 ndum ZO Cr Ari] Jj iW) 
(4.2) 
AP, L 为 比 对 序列 长 度 ; m 为 参加 比 对 的 序列 条 数 ; 5 为 第 i 条 
序列 第 瑚 个 残 基 ， 匹 配 和 不 匹配 的 分 数 通 彰 由 计 分 登 换 算 阵 给 出 。 


3. 适 传 算 子 的 设计 


D) AFART 
算法 采用 了 两 种 选择 方式 : 精 天 你 留 法 (最 佳 个 体 你 存 法 )、 轮 
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盘 财 选择 法 ， 对 个 体 的 适应 度 值 按 大 小 排序 ， 将 前 10% 的 个 体 保留 
到 下 一 代 ， 其 余 90% 的 个 体 采 用 轮 盘 赌 选择 法 选取 父 体 。 

2) 2E XE 

采用 单 点 纵 回 交叉 方式 ， 在 种 群 中 随机 配对 ， 根 据 交 叉 概 率 选 
定 某 对 进行 交叉 ， 在 父 代 个 体 1 中 随机 设 定 一 个 交叉 点 ， 在 父 代 个 
体 2 中 找到 相应 的 交叉 点 ， 实 行 交叉 时 ， 该 点 前 或 后 的 两 个 个 体 的 
部 分 结构 进行 交换 ， 并 生成 两 个 新 个 体 。 例 如 图 例 ， 随 机 选择 交叉 


54 2， 进 行 早点 纵 辣 交叉 的 过 程 如 图 4.1 所 示 。 
Parent 1 


COrSS * Child 1 


| add gap OBSE Child 2 
point | | 


Child Delete gap column Child 2 


np en | mec Te- 
|- ”Esc 
a [s [Rr] E CHESCHEMENIEEN 


Ed 4.1 单 点 纵向 交叉 的 过 程 

3) 变异 算 子 

使 用 一 点 变异 法 : 对 于 多 序列 比 对 问题 ， 插 入 码 是 “一 ”， 对 
于 群体 中 的 个 体 按照 变异 概率 随机 选择 一 个 个 体 作 为 父 本 ， 随 机 在 
某 条 序列 中 选择 一 个 位 置 ， 如 果 这 个 位 置 上 的 字符 为 空格 ， 则 随机 
男 选 一 个 非 空格 位 置 ， 将 空格 移动 到 这 个 位 置 上 ， 其 他 的 字符 问 左 
或 回 右 移 动 。 根 据 保 优 原则 ， 如 果 新 产生 的 个 体 的 适应 度 函 数值 大 
于 原 个 体 的 适应 度数 伸 ， 则 代 巷 原 个 体 ， 耕 则 你 持原 个 体 。 


4. 流程 图 


基本 遗传 算法 的 流程 如 图 4.2 所 示 。 
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|] 
种 群 初始 化 


计算 种 群 中 所 有 个 体 


的 适应 度 值 


得 到 最 佳 个 体 


其 余 90% 适应 度 值 前 10% 
te d Ui pc 择 法 精英 保留 法 


更 新 种 群 
图 4.2 dE E SUE iE B 


41.4 实验 算 例 与 分 析 
1. 实验 结果 的 评价 标准 


为 了 对 数据 进行 统一 且 精 确 的 比较 ， 本 章 选 用 多 序列 比 对 基准 
25€ BAhBASE2.0 数据 库 中 提供 的 参考 比 对 作为 评价 算法 的 测试 
数据 对 象 , 开 与 现 有 有 的 在 线 比 对 工具 的 结果 进行 比较 人 研究 BAIBASE 
提供 了 两 个 评价 分 值 SPS 和 CS， 分 别 用 于 评价 与 BAIiBASE 中 参考 
比 对 进行 比较 的 一 个 测试 比 对 的 质量 ， 代 表 看 正确 识别 出 你 守 位 所 
的 百分比 ， 所 以 SPS 和 CS 越 高 ， 说 明 比 对 的 结果 越 接近 于 参考 序 
列 ， 比 对 效 朱 越 好 。 

第 一 个 函数 是 Sum-of-Pairs Score(SPS): wA N ^r Eo am 
列 ， 构 成 M 列 ， 标 记 第 i 列 的 比 对 列 为 4,4,,…, As SERES] I 
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Ak A, PHI A, 定义 变量 ppo WR A M A EEIE AARP A 
于 同一 列 ， 则 p, 21, fip, =0 。 定 义 变量 5 为 第 i 列 的 得 分 : 


N N | 
T= », P Pp (4.3) 
j= jE k=l 
记 SPS 为 最 终 比 对 结果 的 得 分 ， 则 
M n 
" EN 
SPS =S (4.4) 
i n 


AP, M, 是 参考 比 对 结 来 中 的 列 数 ;9 16275 HRN 8 RIP S i yA 
得 分 。 

用 该 函数 进行 评价 时 ， 比 对 结果 的 得 分 越 多 ， 说 明 比 对 的 结果 
越 好 。 

"B ^ EXE Column Score(CS): WEES ARKE ; sj, du 
这 列 中 所 有 的 残 基 在 参考 比 对 中 也 位 于 同一 列 ， 则 C 1. 159 
C, =0。 按 照 下 面 的 公式 对 比 对 绍 来 进行 CS 打分 。 

CS=5 CM, (4.5) 
AP, M, 是 参考 比 对 结果 中 比 对 列 的 个 数 。 
2. 实验 参数 


应 用 遗传 算法 模拟 多 序列 比 对 的 实验 参数 汇总 匈 表 4.2. 


Parameter 451c refl Fitness function Sum-of-pairs 


ap open penalty -3 


oelection strategy | Roulette wheel —-0.15 
Elitist rate Crossover probability 0.6 

Crossover operator 0.2 

Mutation operator Coding Two-dimensional 


Programming 


Generations G: 
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3. 实验 结 来 与 分 析 


451c refl 原 参 考 友 列 如 图 4.3 Pros 


mseq = 


ATPAELATKA GCAVCHQPTAKGLGPSYQEIAKKYKGQAGAPALMAE  RVREGSVGIFG — — KLPMIPTPARPISDADLELVIDWIL  — 


| 


ASPEEIY KA NCIACHGENYE |  GVSGPSLKGVGDKKDVAEIKT KIEKGG NGMPSGL _VPADKLDDMAEWVSKI 
ADGAALY KS CIGCHGADGS — KAAMGSAKPVKGQ GAEELYK — KMKGYADGSYG GERKAMMINAY KKYSDEELKALADYMSEL 
DAEAGQG KVAVCGACHGVDGN —— SPAPNFPKLAGQ GERYLLKQLQDIKA4GSTPGAPEGVGRKVLEMTGML DPLSDQDLEDIAAYFSSQK 


QDGEALF KSKPCAACHSVDTKMVGPALKEVAAKNAGVEGAADTLAL  HIKNGSQGVWG — — PIPMPPNP A. VTEEEAKILAEWVLSLE 


图 4.3 451c refl 原 参考 序列 


模拟 出 来 的 451c_refl 序列 的 比 对 结束 见 图 4.4。 


ATPAELATKA GCAVCHQPTAKGL GPSYQEIAKKYEK | GQAGAPAL MAER VRKG SVGIFG KLPMTPTP  ARPISDAD L KLVIDW IL - 
ASPEEI YKAN CIACHGENYEGV SGP  SLKGV GDRKDVAEI KTK IE K &— GGN GMPSGL  VPA DKLDD MAEWVS KI — 
ADGAAL YKS (CIGCHGADGSKAAMGSAKPVKG QGAEE LY KK M KGYA D GS  YGGERKAMMTNAVKKYSD EELKA LADYM SEL — 
DAEAGQ GKVAVCGACHGVDGN SPAPNFPKLAG QGER YLLKGLQDIKAGSIPGAPEGVG RKVLEMTIGMLDPLSDQ DLED IAAYFS SQ K 
QDGEAL FKSKPCAACHSVDTKMV GPALKEVAAKN AG VEGAAD TLALH IKNG SQGVW GPIPMPPNP VT E EEAKI LAEWVL SL K 


E * R E 


图 4.4 451c_refl 序列 的 比 对 结果 图 (* 列 是 全 对 齐 列 ) 
其 他 的 模拟 结 未 数据 统计 见 图 4.5。 


print cm06 2st = 


besttseq: [[6x96 char] [6x96 char] [6x89 char] [6x96 char] [6x95 char] [6x95 char] [6x95 char] [6x93 char]} 
segfit: {lx8 cell] 
num iter: [2000 2000 2000 2000 2000 2000 2000 2000] 
ksx: [4235 3 5 2 3] 
bestsps: [0.6836 0.6425 0.6466 0.6068 0.6562 0.6521 0.7808 0.6438] 
besttcs: [0.3333 0.3438 0.3258 0.2708 0.3474 0.3053 0.4211 0.3011] 
time: [2. 6931e+003 2.6500&-003 2.6971e-003 2.6402e-003 2.6532e4003 2. 6265e+003 2.6737e+003 2.6558e*003] 


图 4.5 模拟 结 示 数据 统计 


451c refl 的 SPS (E EXE UXABUP] AR: A ES WA] 4.6. 
应 用 遗传 算法 比 对 的 结果 与 当前 热门 在 线 测试 软件 比 对 结果 
的 比较 见 表 4.3。 
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图 4.6 451c refl 的 SPS 值 与 迭代 次 数 的 关系 图 
表 4.3 遗传 算法 与 其 他 算法 的 结果 比较 


T TE 


415 结论 


F 


比 对 序列 451c ref1 ， 与 其 他 算法 相 比 较 ， 应 用 基本 遗传 算法 
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迭代 2000 次 可 以 得 到 较为 满意 的 结果 ,完全 罗 配 列 最 为 接近 参考 
序列 。 

虽然 比 对 结果 较为 理想 ， 但 是 也 存在 一 些 问 题 : 

(1) SPS 最 高 ， 但 CS 不 是 最 高 。 

(D) 匹配 列 最 多 ， 分 数 不 是 最 高 。 

(3) 耗 时 太 长 。 

(4) 只 测试 了 一 个 短 序 列 ， 结 条 与 在 线 软件 相 比 更 好 。 长 序列 
(>200) 结 果 不 太 理想 。 

(5) AKARA, Xf 2000 AUAM, ERARA, £i 
REW, NEK. 

因此 ， 为 了 更 好 地 提高 遗传 算法 的 比 对 效率 ，4.2 WA 43 市 将 
分 别 从 初始 种 群 和 区 叉 算 子 两 方面 进行 优化 ， 从 而 达到 改进 遗传 算 
法 的 目的 。 


4.2. 改进 章 传 工法 乙 急 始 种 矢 优 化 


4.2.1 引言 


初始 种 群 是 超 传 算法 中 极为 关键 的 部 分 ，Gondro 认为 初始 种 群 
的 质量 直接 影 啊 到 遗传 算法 的 收敛 速度 ， 运 应 度 值 高 的 种 群 能 够 很 
快 地 收敛 到 接近 最 优 解 的 解 ， 因 此 ， 一 个 融 品 质 的 初始 种 群 是 改进 
吐 传 算法 的 关键 所 在 。 生 成 初始 种 群 个体 的 传统 做 法 是 在 序列 中 随 
机 插入 空位 ， 这 样 的 个 体 没有 任何 生物 学 的 比 对 音义， 难免 会 产生 
一 些 适应 度 值 较 低 的 个 体 ， 造 成 计算 成 本 昂贵 。 如 果 在 序列 中 插入 
宇 位 时 考虑 多 序列 比 对 的 生物 特性 ， 这 样 生成 的 个 体 所 组 成 的 初始 
种 群 符 合 多 序列 比 对 的 生物 特性 ， 有 具有 较 高 的 适应 度 值 ， 可 从 个 体 
角 上 度 上 提高 初始 种 群 的 质量 。 

多 序列 比 对 有 很 多 章 见 的 在 线 测试 工具 , 如 MAFFT, ClustalW, 
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MUSCLE 等 ， 应 用 这 旦 在 线 工 上 其 能 快速 地 得 到 罗 好 的 比 对 结 未 。 但 
是 这 旦 结 末 对 各 参数 的 依赖 性 很 强 , 个 同 参 数 下 得 到 的 结 琳 很 个 一 
杜 。 而 目击 尚 没有 有 效 的 方法 且 接 确定 最 优 参 数 但 ,， 改 很 难 且 接 通 
过 在 线 工具 得 到 局 部 最 优 解 。 这 些 在 线 比 对 结果 虽 不 能 作为 最 优 
解 ， 但 可 以 作为 多 序列 比 对 的 参考 。 如 林 将 这 些 优 质 比 对 结 示 作为 
匀 始 种 群 的 一 部 分 个 体 ， 经 过 遗传 操作 迁 代 后 将 能 得 到 更 好 的 比 
对 结果 。 根 据 在 线 测 试 工 具 快 速 比 对 的 特点 ， 从 上 述 在 线 测试 工具 
中 选择 参数 简单 且 比 对 效 末 较 好 的 MAFFT DOSE TCH, RECIEN S 
果 作为 优质 种 子 ， 以 一 定 比例 加 入 到 初始 种 群 中 ， 可 从 整体 角度 上 
提高 初始 种 群 的 质量 。 

经 过 这 两 个 优化 过 程 ， 可 以 生成 更 高 质量 的 初始 种 群 。 在 效 人 
模拟 中 ， 从 BABBASE2.0 数据 库 随机 选择 序列 秘 作 为 实验 对 象 ， 以 
SPS 值 作为 评估 比 对 质量 的 标准 , 通过 实验 验证 ， 这 两 个 做 法 的 组 合 
优化 了 初始 种 群 的 质量 ， 提 高 了 多 序列 比 对 的 计算 效率 ， 从 而 达到 
改进 的 目的 。 


422 优化 原理 
1. 插入 连续 空位 


在 应 用 遗传 算法 进行 多 序列 比 对 时 ， 首 先 要 生成 初始 种 群 。 一 般 

做 法 是 在 序列 中 随机 插入 奎 干 的 空位 ， 插 入 空位 后 的 序列 长 上 度 不 超过 
最 长 序列 长 度 的 1.2 倍 ， 据 此 定义 空位 率 为 0.2。 众 多 文献 的 初始 种 群 
个 体 都 是 在 序列 中 随机 插入 衬 位 ， 且 每 个 个 体 的 维 数 (插入 至 位 后 的 序 
列 长 度 ) 都 是 最 长 序列 长 度 的 1.2 倍 ， 即 同 维 个 体 ， 这 种 应 用 传统 做 法 
生成 的 个 体 ， 这 里 称 之 为 随机 揪 入 至 位 固定 长 度 的 个 体 ， 简 称 randfix。 
但 是 对 于 多 序列 比 对 问题 ， 从 生物 进化 的 角度 认为 : 在 非 空位 

位 点 间 加 入 狐 的 容 位 不 如 在 空位 位 点 插入 其 有 连续 较 长 的 容 位 更 能 
WEDT, 根据 手工 比 对 好 的 参考 序列 或 在 线 测试 软件 比 对 结 
R, 能 观察 出 其 空位 分 布 是 连续 的 。 例 如 BAliBASE2.0 中 lcsp_refl， 
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其 手工 比 对 好 的 参考 序列 见 图 4.7。 


-MLEGKVEWFNSEKGFGF IEV-EGQDDVFVHF SAIQG----EGFKTLEEGQAVSFEIVEGNRG-PQAANVTKEA 
MSGEMIGIVKWFNADKGFGFITPDDGSKDVFVHFSAIQN----DGYESLDEGQKVSFTIESGAKG-PAAGNVISL- 
—-MATIGTVEWFNAEKGFGFIAQDGGGPDVFVHYSAINA----TGFRSLEENQYVNFDVTHG-EG-PQAENVSP A- 
-———---KGIVKWFSDOKGFGFITPDDGGEDLFVHQSGIRS----EGFRSLAEGETVEFEVESGGDGRTKAVDVIGP- 
——-VLGTVEWFNVRNGYGFINRNDTKEDVFVHQTATIKKNNPREYLRSVGDGETVEFDVVEGEKG- AE AANVTGP- 


图 4.7 1lcsp refl 参考 序列 


所 以 在 序列 中 插入 这 样 的 连续 空位 更 符合 其 生物 特性 ， 这 里 称 
之 为 具有 生物 特性 的 固定 长 度 的 个 体 ， 简 称 biofix。 

众多 文献 的 初始 种 群 个 体 维 数 都 是 最 长 序列 长 度 的 1.2 倍 ， 也 
就 是 上 血 提 到 的 同 维 个 体 ， 即 固定 长 度 的 个 体 。 张 再 等 从 具体 的 参 
考 比 对 结果 中 发 现实 际 插入 的 空位 非常 少 ， 空 位 紊 往往 是 0.125 其 
至 更 低 。 例 如 ，1csp refl 最 长 序列 长 上 度 是 70， 参 考 序 列 长 度 是 76, 
其 空位 率 为 (76-70)/70=0.086。 如 条 若 夸 这 样 的 初始 种 群 ， 其 中 个 体 
是 不 同 维 的 ， 它 们 的 空位 率 在 0.125~0.2 之 间 变 化 ， 也 许 能 得 到 质 
量 蝎 优 的 比 对 结果 。 对 于 这 种 随机 插入 容 位 且 不 同 维 的 个 体 ， 这 里 
称 之 为 具有 随机 插入 空位 变 长 度 的 个 体 ， 人 简称 randvar。 如 果 是 连续 
插入 衬 位 且 不 同 维 的 个 体 , 这 里 称 之 为 具有 生物 特性 变 长 度 的 个 体 ， 
简称 biovar。 直 接生 成 带 有 连续 空位 的 个 体 作 为 初始 种 群 个 体 ， 将 
会 优化 初始 种 群 的 个 体质 量 ， 从 而 提高 比 对 效率 。 


2. 加 入 MAFFT 种 子 的 初始 化 


应 用 在 线 比 对 工具 MAFFT， 当 输入 不 同 的 比 对 参数 gop(gap 
open penalty) 和 gep(gap extension penalty), 可 以 快速 得 到 不 同 的 质量 
较 好 的 比 对 结果 。MAFFT 等 在 线 比 对 工具 高 度 依赖 于 输入 的 比 对 参 
数 , 为 保持 其 随机 性 和 多 样 性 , 比 对 时 输入 1000 组 互 不 相同 的 参数 ， 
生成 1000 HEIER, 再 从 中 随机 选取 比 对 结 琳 作为 种 子 ， 其 个 数 
不 应 超过 初始 种 群 规模 。 当 将 这 些 优质 种 子 以 一 定 比 例 加 入 到 初始 
种 群 中 ， 经 过 遗传 操作 和 友人 代 后 能 得 到 更 好 的 比 对 结束。 这 种 加 入 
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优质 种 子 的 处 理 不 但 增加 了 初始 种 群 的 多 样 性 ， 同 时 也 从 整体 上 进 
一 步 优化 了 初始 种 群 的 质量 ， 


42.3 几 种 初始 化 方法 的 构造 


初始 化 时 ， 在 序列 中 随机 插入 空格 得 到 初始 种 群 的 个 体 。 对 于 
每 一 条 序列 5, 随机 选择 x 个 位 置 插入 空位 “一 ”，x= 工 -1 ， 使 得 
处 理 后 每 个 序列 的 长 度 都 为 L。 根 据 插入 空位 的 方式 和 空位 特点 ， 
分 为 以 下 四 种 初始 化 方法 。 


1. randfix 的 构造 步骤 


(1) 确定 插入 衬 位 后 序列 的 长 度 工 =[emr， Xx1.2]， 其 中 len、 
每 一 条 序列 长 度 len, 的 最 大 值 ， 即 最 长 序列 的 长 度 。 

Q) 第 1 条 序列 需 插入 空位 的 数目 为 Llen, ， 随 机 产生 不 重复 
的 位 是 ， 并 将 容 位 搬入 相应 位 置 。 

(3) 根据 原始 序列 ， 按 顺序 将 字符 复制 到 除 空 位 外 的 相应 位 置 ， 
形成 了 种 群 的 个 体 。 

(4) 如 果 个 体 中 有 一 列 全 部 是 空位 ， 则 删除 该 空位 列 。 

生成 的 个 体 见 图 4.8。 


MLEG-KEVÉK-WFNSEK-GFG-F IEVEGOQDDVFVHF-S-AIQGEGFKTLEE-G-QAVSFEIVE-GCNRGPQAANVTKE-A 
MS-GKMIGIVKWFNADKGFGFITIPDDGSKDVFVHF-SAIQNDGY-KSLDEGQKVS-FTIESGAK-G-PAA-GNVISL 
MATGTVE-—-WFNAEKGFGF I-AQDGGGPDVFVHYS-A-INATGFRS--LEE-NQVVNFDVTH-GE-GPQAE-NVSPA 
K-GIV-KWFSDQRGFGF I-—-TPDD-GGEDLFVHQ- SG I-RSEGFRSLAEGETY-EFEV-ESGGDGRTEAVDV-TGP- 
VL-GTVEÉWFNVRNGYGF INRND-TKEDV-F-VH-Q-TATKENNPREYLRSVGDGETVEFDVVEGEKG AE- A ANVTGP 


(a) 个 体 1 


-MLEGKVKW-FNSEKGFGFIEVEGQDD-V-FVHFSATQGEGF-KTLEEGQAVSFEIV-EGN-RGP-QAANVTKEA-- 
MSGEMIGIVKWFN-ADKGFG-FITPDDGS-KD-VFV-HFSAIQNDGYKSLDEGQOKVSFTIESGAKGPAAG-NV-TSL 
MAIGTVKWFNA-EKGFGF IAQDGG-G--PDVFVHYSAIN-AT-GFRSLE-E-NQV-VNFDVTH-GEG-PQAENVSPA 
KGI-VKWF-SDQKGFGF-ITPDDGGEDLFVHQSGIRSEGFRS-LAE-GE-TVEFE-V-ES-GGDGRTEAVDVT-GP- 
VLGIVKWFNVRNGYGFINRN--DTKEDV-FVHQI--AIKKNNPRKYLRSVGDGETVEFDVVEGEKGAEAAN-VTGP- 


(b) 个 体 2 
图 4.8 lcsp refl 的 两 个 randfix 4125/45] V 
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2. randvar 的 构造 步骤 


GD) 随机 生成 与 种 群 规模 个 数 相同 的 整数 ， 其 范围 在 [en + 
llen x1.2] <B], 这 些 随机 整数 瓯 是 种 群 每 个 个 体 插 入 衬 位 后 序 
列 的 长 度 趣 ， 这 样 的 议 置 可 以 使 得 每 个 个 体 的 空位 对 不 同 。 

D 对 于 第 j 个 个 体 的 第 i 条 序列 需 插 入 空位 的 数目 为 Llen,， 
随机 产生 不 重复 的 位 置 ， 并 将 空位 插入 相应 位 置 。 

(3) 根据 原始 序列 ， 按 顺序 将 字符 复制 到 除 空位 外 的 相应 位 置 ， 
形成 了 种 和 群 的 个 体 。 

(4) 删除 全 至 位 列 。 

生成 的 个 体 见 图 4.9。 


MLEGKVKW-FNSE-K--GFGFIEVEG-QDDVFVHFSAIQGEGFKILEEGQAVSFEIVEGNRGPQAANVTKEA 
MSGEMIG-IVEKWFNADKGFGFIIPDDGSRDVFVHFSAIQNDGYRSLDEGQKVSFTIESGAKGPAAGNV-ISL 
MAIG-IVEKWFNAE--KGFGF IAQDGGGPDVFVH-YSAINATIGFRSLEENQVV-NFDVT-HGEGPQAENVSPA 
K-GTVÉ-W-FSDQKGFGFITPDDGGEDLF-VHQSGIRSEGFRSLAEGET-VEFEVE-SGGDGRTKAYDVTGP 
VLGTVEWENVRNGYGFINRNDTKEDVFVHQTATKEENNPREYLR-SVGDGET-VEFDVVEGEKG AE AANVTGP 


(a) 个 体 1 


MLEGKVKWFNSEKGFGF IE-VEGQ-DDVFVHF SAIQ-—GEG-FK TLEEGQAV-SFE IVEG-N-RGPQAANVT—KEA 
-MSGK-MIGIVEWFNADK-GF-GFITPDDGSKDVFVHFS-AIQNDGYKSLDEG-QKVSFTIESGAKGPAA-GNVTSL 
-MAT-GTVKWFNAEKGFGF IAQDGGGPDVFVHYSAINATG--FRSL-EENQVVN-FDVTHGEG—-PQ-AENV—-SPA 
-KGTV-KWF-SDQKGFGFI-TPD-DGGEDLF-VHQSG IRSEGFRSLAEGET-VEFEV-ES-GGDG-RTK-AVDVIGP 
VLGTVKWFNVRNG Y-G—F INRND TKEDVFVHQ-TAIK-KNNPRKYLRSVGDGETVEFDVVEGEK-G-AEAANVT-GP 


(b) 个 体 2 
图 4.9 1csp refl 的 两 个 randvar 初始 化 个 体 


3. biofix 的 构造 步骤 


(1) 确定 插入 空位 后 序列 的 长 度 L=[ien,。 X1.2] ， 其 中 1en, 是 
每 一 条 序列 长 度 len, 的 最 大 值 ， 即 最 长 序列 的 长 度 。 

(2) 假设 插入 的 每 一 段 空位 长 上 度 全 少 大 于 2, 根据 需 插 入 空位 的 
KÆ L— len, Uf XE m e 8 AN e ^P EYE SETA. 随机 产生 不 重复 的 位 置 ， 
PR ER TAIRA MLE, DR EMKE Be A ERE SEULS, 
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WU ZR ASA EM, EIEE MABENA RR EM o 
(3) 根据 原始 序列 ， 按 顺序 将 字符 复制 到 除 空 位 外 的 相应 位 置 。 
(4) 删除 全 空位 列 。 
生成 的 个 体 见 图 4.10. 


-—-MLEGKVEWFNSEKGFGF IEVEGQD--DVFVHF--SAIQGEGFKTLEEGQAVSFEI----VEGNRGPQAANVTKEA 
MSGKM-TGIVK-—WF--NADKGFGFITPDDGSKDVFY--HFSAIQNDGYKSLDEGQKVSFTIESGAKGPAAGNVTSL 
MAT--GTVEWFNA--ERGFGFIAQD--GGGPDVFVHYSAI-NATGFRSLEENQVVNF--D-- VTHGEGPQAENVSPA 
KGTVK--WFSDOKGFGFITPDD--GGEDLFVHQSG IR-—-SEGFRSL--AEGETVEFEVESG--GDGRTKAVD-VTGP 
VLGIVEWFNVRNGYG--F INRNDTKE--DVFVHQTAIK--KNNPREYLR-SVGDGETVEFDYVEGEKGAEAANVTGP 


(a) 个 体 1 


MLEGKVKWFNSEK--GFGFIEVEGQDDV--FVH--FSAIQG--EGFKTLEEGQAVSFEIVEGNRGPQAAN--VTKEA 
MSCGKMIGIV--KWFNAD-EGFGF--ITPDDG--SEDVFVHFSAIQNDGYEKSLDEGQEVSFTIESGAKGCPAAGCNVTSL 
MAIGIVEWFNAEK--GFG--FI--AQDGG--GPDVFVH-YSAINATGFRSLEE--NQVVNFDVTHGEGPQAENVSPA 
-—--KGIVEWFSDQKG--FGF--ITPD-D--GGEDLFVHQSG IRSEGFRSLAEGETVEFEVESGGDGRTKAVDVTGP 
—VLGTVKWFNVRNGYGF INCRNDTKEDVFVHQTAIKENNPR--KYLRSVGDGETV-—-EFDVVEGEKGAEAANVTGP 


(b) 个 体 2 
图 4.10  1esp refl 的 两 个 biofix 初始 化 个 体 


4. biovar 的 构造 步骤 


(1) 随机 生成 与 种 和 群 规模 个 数 相 同 的 整数 ， 其 大 小 沁 围 在 
[len +l1,/len x1.2| zn], xe pL LA TUE BET B AA 
位 后 序列 的 长 度 工 。 

(2) 假设 插入 的 每 一 段 军 位 长 度 至 少 大 于 2, 根据 需 插 入 空位 的 
KÆ L — len, 确定 再 要 插入 多 少 段 连续 空位 ， 随 机 产生 不 重复 的 位 
置 ， 并 将 连续 空位 插入 相应 位 置 ， 如 果 衬 位 长 度 不 能 整除 连续 衬 位 
长 度 ， 则 余数 为 剩余 衬 位 ， 在 非 至 位 处 随机 插入 剩余 空位 。 

(3) 根据 原始 序列 ， 投 顺序 将 字符 复制 到 除 衬 位 外 的 相应 位 置 。 

(4) BIER E E. 

生成 的 个 体 见 图 4.11。 

通过 以 上 个 体 图 可 以 看 出 ， 当 采用 固定 长 度 的 初始 化 时 ， 插 入 
的 空位 长 度 是 统一 的 , 所 以 生成 的 个 体 维 数 相同 , 如 图 4.8 和 图 4.10 
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所 示 。 而 当 采 用 变 长 度 的 初始 化 时 ， 揪 入 的 空位 长 度 是 随机 的 ， 所 
以 不 同 个 体 的 长 度 是 不 同 的 ， 如 图 4.9 和 图 4.11 所 示 ， 这 样 的 处 理 
更 能 增加 初始 种 群 个 体 多 样 性 。 


MLEGKVKWFNSEK--GFGF IEVEGQDDVFVHFSAIQGEGFKTLEEG--Q-AVSFEIVEGNRG--PQAANVTKEA 
MSGKMIGIVKW--FNADKGFGFITPDDGSKDVFVHFSAIQNDGYKSLDEGQRVSFTIESGAKGPAAGNY--TSL 
M-—-ATGTVEWFNAEKGFGFIAQDGGGPDV--FVHYSAINA--TGFRSLEENQVY--NFDVTHGEGPQAENVSP A 
—EGTVEKWFSDQKGFGFITPDDGG--EDLFVHQSGIRSEGFRSLAEGE--TV--EFEVESGGDGRTKAVDVTGP 
VLGT--VEWFNVRNGYGFINRNDTKEDVFVHQTATKEKNNPREYLRSVGDGETVEFDVVEGEK--G AE A ANVTGP 


(a) 个 体 1 


MLEGKVKWFN--SEKGFGF IEVEGQ--DDVFVHFSAIQ--G-—-EGFKTLEEGQAVSFEIVE--GNRGPQAANVTKEA 
MSGEMIGIVEWFNADKG----FGFITPDDGSKDVFV--HFSAIQNDGYKSLD--EGQKVSFTIESGAKGPAAGNVTSL 
--MATGTVKWFNAEKGFGFIAQDG--G--GPDVFVHYSAIN--ATGFRSLEENQVVNFDVTHG--EGPQAENVSP-- A 
KGTVKWFS--DQKGFGFIT--PDDGGEDLFVH--Q--SGI--RSEGCFRSLAECETVEFEVESGGD--GRTEAVDVTGP 
VLGTVKW--FNVRNGYGF INRNDTKEDVF--VHQTATKKNNPRKYLRSVGDGETY-—--EFDVVEGEKG AE AANVTGP 


(b) 个 体 2 


图 4.11  lesp refl 的 两 个 biovar 初始 化 个 体 


424 加 入 MAFFT 种 子 的 初始 化 


应 用 在 线 比 对 工具 MAFFT， 输 入 1000 组 互 不 相同 的 比 对 参数 
gop(gap open penalty) 和 和 gep(gap extension penalty)， 可 以 得 人 到 1000 组 不 
同 的 比 对 结 来 。 假 充 彻 始 种 群 规模 十 50 个 个 体 ， 则 从 1000 组 比 对 结 
果 中 随机 选取 50 个 MAFFT 比 对 结果 作为 优秀 种 子 ， 如 果 将 这 50 个 
优秀 种 子 全 部 作为 初始 种 群 的 个 体 ， 则 该 种 群 侧 称 为 SOMAFFT 种 子 。 

如 过 从 这 50 个 优秀 种 子 中 册 随 机 选 出 20 个 , 并 随机 蔡 换 上 面 的 
随机 初始 种 群 中 的 20 个 个 体 ， 则 该 种 群 便 称 为 20MATFFT fb. UH 
果 原 种 群 中 不 插入 优秀 种 子 ， 即 原 随机 种 群 ， 简 称 为 OMAFFT 种 子 。 


425 实验 算 例 与 结果 
1. 实验 参数 


应 用 改进 遗传 算法 模拟 多 序列 比 对 的 实验 参数 汇总 见 表 4.4。 
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表 4.4 实验 参数 


Parameter Sum-of-pairs 
Population size BLOSUMAS 
Generations Crossover operator | One point 
oelection strategy 0.6 
Elitist rate Onc bit 
Programming language 0.2 


Coding Two-dimensional 


2. KERS TAI 


从 BARBASE2.0 数据 库 中 随机 选 了 10 组 多 序列 ， 以 SPS 作为 
评估 比 对 质量 的 标准 。 由 于 遗传 算法 具有 随机 性 ， 对 相同 的 实验 用 
例 可 能 得 到 不 同 的 比 对 结果 ， 所 以 这 里 对 每 个 实验 用 例 用 同样 的 方 
法 做 10 次 ， 计 算 其 SPS 值 ， 青 取 其 最 大 值 为 最 终 的 结果 。 

四 种 初始 化 的 序列 比 对 SPS 值 如 表 4.5 所 示 ， 最 优 解 分 布 情况 
及 曲线 如 图 4.12 所 示 。 

表 4.5 四 种 初始 化 的 序列 比 对 SPS 值 


(黑体 数字 表示 该 组 序列 的 SPS 最 优 解 ) 
SPS 


ai biovar 
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max number 


randfix randvar biofix biovar 


图 4.12 四 种 初始 化 的 序列 比 对 SPS fü 


从 表 4.5 和 图 4.12 可 以 看 出 : 

(1) 种 群 中 变 长 度 个 体 比 固定 长 度 个 体 的 计算 效果 好 。 

Q) 具有 生物 特性 的 初始 化 比 随机 初始 化 的 计算 效果 好 。 

lesp refl 手动 比 对 好 的 参考 序列 和 应 用 本 文 算 法 比 对 的 结果 见 
图 4.13 和 图 4.14， 其 中 * 是 全 对 齐 列 。 


—-MLEGKVEWFNSEKGFGFIEV-EGQDDVFVHFSAIQG————-EGFKTLEEGQAVSFEIVEGNRG-PQAANVTKEA 
MSGKMIGIVKWFNADKGFGFITPDDGSKDVFVHFSAIQN---- DGYKSLDEGQKVSFTIESGAKG-PAAGNVTSL- 


-——-MATGTVKWFNAEKGFGFIAQDGGGPDVFVHYSAINA----TGFRSLEENQVVYNFDVTHG-EG-PQAENVSP A- 

-——---KGIVEWFSDQKRGFGFITPDDGGEDLFVBHQSGIRS----EGFRSLAEGETVEFEVESGGDGRTKRAVDVTGP- 

—--VLGIVEÉWFNVRNGYGFINRNDIKEDVFVHQIATEKNNPREYLRSVGDGETVEFDYVEGEEG-AE AA4NVTGP- 
X* xoxo * ox k 率 率 率 * * x * $ * — x 


图 4.13 1csp refl 的 参考 厅 列 
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MLEG-K--VKWFNSEKGFGF IEYE-GQDDVFYHFSAIQGE-GFKTLEE-GQA-— VSFEIVEGNRGPQ-AANVTKEA 
MSGEMTIGIVKWFNADEGFGF ITPDDGSKDVFVHF SAIQ-NDG--Y-KSLDEGQKVSF TIESGAKG-P-AAGNVTSL 
MATG---TVEWFNAEKGFGF I 4QDGGGPDVFVHYSAINAT-G-F--RSLEENQVYYNFDV- T--HGEGPQAENVSPA 
-—KG---TVEWFSDQKGFGF ITPDDGGEDLFVHQSGIRSE-G--P-RSLAEGETVEFEVESGGDGRTKAVD-YTGP 
VL-G---TVEWFNVRNGYGE INRNDTKEDVFVHQTAIKEKNNPREYLRSVGDGETVEFDVVEGERG- AE AA4-NY TGP 


车 率 率 让 t ttt t *** * * x * 


图 4.14 lcsp refl 比 对 结果 


结论 : 在 友 列 中 插入 不 同 数目 的 连续 容 位 ， 形 成 包含 不 同 维 个 
体 的 初始 种 群 ， 不 但 具有 生物 意义 ， 也 增加 了 初始 种 群 的 多 样 性 ; 
通过 实验 算 例 的 结果 比较 ， 这 种 插入 连续 容 位 的 不 同 维 个 体 最 适合 
作为 多 序列 比 对 的 初始 种 群 。 

从 BAliBASE2.0 数据 库 中 随机 选 了 10 组 多 序列 ， 以 SPS 作为 
评估 比 对 质量 的 标准 。 由 于 遗传 算法 具有 随机 性 ， 对 相同 的 实验 用 
例 可 能 得 到 不 同 的 比 对 结果 ， 所 以 这 里 对 每 个 实验 用 例 用 同样 的 方 
法 做 10 次 ， 计 算 其 SPS 值 ， 再 取 其 平均 值 和 最 大 值 作为 最 终 的 结 
果 ， 见 表 4.6、 图 4.15 和 表 4.7、 图 4.16。 

这 是 种 群 规模 50， 进 化 代数 3000 次 的 结果 。 


表 4.6 三 种 加 入 MAFFT 优秀 种 子 的 序列 比 对 SPS 平均 值 


| , oPS(horlizontal cross) SPS (vertical cross) 
数据 库 名 称 | 长 度 (bp) 

451c refl 0.3005 | 0.3668 | 0.3851 | 0.3661 | 0.3616 | 0.3801 
lab refl 0.3436 | 0.4265 | 0.4246 | 0.2682 | 0.4246 | 0.4139 
laho refl 0.5549 | 0.5613 | 0.5212 | 0.4714 | 0.5632 | 0.5184 
Ipfc refl 0.4742 | 0.5076 | 0.4895 | 0.4316 | 0.5065 | 0.4956 


时 间 (s) 7800 10000 
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horizontal cross vertical cross 


o 
A 
[qa 
一 全 一 0M-h 
——3—— 20M-h 
—*— 5OM-h 
—O — OM-v 
m 1 —ck — 20M-v 
o» 4 —v- 50M-v 


图 4.15 三 种 加 入 MAFFT 优秀 种 子 的 序列 比 对 SPS 平均 值 
表 4.7 三 种 加 入 MAFFT 优秀 种 子 的 序列 比 对 SPS 最 大 值 
(黑体 数字 表示 该 组 序列 的 SPS 最 优 解 ) 


oPS(horizontal cross) SPS (vertical cross) 


数据 库 名称 | 长 度 (bp) 
2cba refl 0.5325 0.5216 


E [E] (s) 7800 10000 
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horizontal cross vertical cross 


"à 2 3 4 5 6 T 8 
E416 三 种 加 入 MAFFT 优秀 种 子 的 序列 比 对 SPS 最 大 值 


(1) 横 回 交叉 比 纵 回 交叉 的 计算 效果 好 。 

(2) 当 友 列 长 上 度 <120bp 时 ，0 种 子 /20 种 子 /50 种 子 的 SPS 值 相 
ZAR, wE 0M. 

(3) 当 友 列 长 度 >120bp 时 ，0 种 子 的 分 值 与 20 种 子 /50 种 子 的 
SPS 值 相差 很 大 。 优 先 选 择 20M 和 50M， 但 是 50M 的 计算 费用 较 
局 ， 且 容易 陷入 局 部 最 优 解 ， 故 最 好 选择 20M。 

(4) 对 于 遗传 算法 这 种 随机 算法 来 说 ， 虽 然 平 均值 数据 可 以 反 
映 出 算法 的 性 能 ， 但 是 最 后 的 比 对 结果 仍 以 最 大 值 为 准 。 从 两 个 图 
可 以 看 出 平均 什 与 最 大 值 的 趋势 走 癌 兰 不 多 ， 因 此 ， 以 后 的 遗传 算 
法 数据 均 只 计算 最 大 值 。 


4.2.6 mW 


壮 传 算法 可 以 有 效 解决 生物 多 序列 比 对 问题 ， 但 是 遗传 算法 局 
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度 依赖 于 初始 种 群 ， 好 的 初始 种 群 可 以 得 到 好 的 结果 。 为 提高 计算 
效率 ， 提 高 比 对 质量 ， 本 节 从 遗传 算法 最 关键 的 组 成 部 分 入 手 ， 通 
过 优化 初始 种 群 的 质量 ， 达 到 改进 算法 的 目的 。 

在 序列 中 插入 不 同 数目 的 连续 空位 ， 形 成 包含 不 同 维 个 体 的 初 
始 种 群 ， 这 样 生 成 的 个 体 不 但 具有 生物 意义 ， 也 增加 了 初始 种 群 的 
多 样 性 ， 优 化 了 初始 种 群 的 个 体质 量 ， 在 这 个 初始 种 群 的 基础 上 ， 
加 入 适当 比例 的 优秀 MAFFT 种 子 ， 不 会 陷入 局 部 最 优 解 ， 优 化 了 
初始 种 群 的 整体 质量 。 因 为 多 序列 比 对 通常 的 比 对 对 象 是 长 
度 >120bp 的 中 长 序列 , 这 种 插入 连续 空位 的 不 同 维 个 体 最 适合 作为 
多 序列 比 对 的 原始 初始 种 群 。 对 于 中 长 序列 比 对 问题 ， 在 原始 初始 
种 群 中 加 入 2 : 5 的 MAFFT 优质 种 子 ， 可 以 达到 最 好 的 计算 效率 。 
通过 实验 验证 ， 这 两 个 做 法 的 组 合 优化 了 初始 种 群 的 质量 ， 提 高 了 
多 序列 比 对 的 计算 效率 ， 从 而 达到 改进 的 目的 。 


4.3 改进 半 传 异 法 之 交叉 算 于 优化 
431 引言 


交叉 算 子 是 构造 遗传 算法 的 一 个 天 键 部 分 。Notredame H iE 
了 人 交叉、 加 容 位 、 移 动 空位 等 22 个 遗传 得 子 : Naznin 义 提 出 单 点 交 
义 与 多 点 人 交叉; Fan 提出 智能 和 拭 子 在 壮 传 算法 中 的 应 用 。 有 的 遗传 
算 子 构造 较为 复杂 ， 但 是 Thomsen 验证 了 简单 或 复杂 的 交叉 算 子 
对 于 比 对 结果 没有 明显 区 别 。Goondro 认为 无 须 设计 过 分 复杂 的 
目前 最 利用 的 交叉 算 子 。 按 照 交 叉 方 式 ， 单 点 交叉 属于 整体 纵 加 
交叉， 由 于 序列 比 对 要 求 交 叉 后 的 残 基 顺序 要 保持 不 变 ， 所 以 这 
种 纵 回 交叉 的 编程 难度 较 大 。 本 贡 又 提出 三 种 构造 简单 的 交叉 方 
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在 交叉 操 作 中 ， 还 有 一 个 后 处 理 的 过 程 ， 即 如 何 确定 交 叉 后 
的 子 代 ， 一 般 的 做 法 是 交叉 后 的 结 未 束 是 子 代 。 本 和 对 于 这 个 后 
处 理 进行 优化 处 理 ， 拓 出 了 改进 方法 cross4to2。 

本 下 应 用 基本 遗传 算法 对 多 序列 进行 比 对 和 模拟， 并 对 遗传 复 法 
中 最 基本 的 交叉 操作 与 其 后 处 理 进 行 优 化 ， 通 过 实验 比较 ， 结 未 表 
明 多 行 模 回 交 又 的 计算 效 未 最 好 , 后 处 理 廊 式 cross4to2 BÉ 43 AAA Rd 
计算 时 间 ， 二 者 相 结合 能 明显 提高 遗传 算法 的 计算 效率 。 


432 交叉 算 子 议 计 
1. 单 点 纵向 交叉 法 


在 种 群 中 随机 配对 ,根据 交叉 概 识 选 定 东 对 进行 交叉 , 在 父 代 
个 体 1 中 随机 议定 一 个 交叉 扣 , 在 父 代 个 体 2 中 找到 相应 的 交叉 点 ， 
实行 交叉 时 , 该 点 且 或 后 的 册 个 个 体 的 部 分 结构 进行 交换 ,并 生成 
PAPE Mss 如 未 维 数 不 同 , MEREEN o 不 总 图 见 图 4.17。 


Parent 1 Parent 2 


K | me Te 
Sie ”le 
^ Ts le fe —— DBAC 
图 4.17 单 点 纵 同 交叉 
2. t ra is [8] 2 X7 


两 个 父 体 乙 间 仅 单 行 参 与 交叉 。 产 生 一 个 不 超过 序列 行 数 的 随 
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WLL, EITT, MRATANI, WERF S 
MI EM, AEMREEMI maB ILE 4.18. 


Parent 1 Parent 2 
osle- IE] CO NAM 
PantlG cE ot 

[sja -cl 7 — E ESESES 


Child 2 


——— 
sl 
— 


Child 1 Delete gap calum Child 2 


[A |G |-|- |c E 
Ei 
a je ja |- |C JE | 


G |— ja |C JE |— 


A |— |G |a |e JE |-. 
Kl418 单 点 横 同 交叉 


3. 多 行 横 回 交叉 法 


两 个 父 体 之 间 有 多 行 参与 交叉 。 产 生 一 个 不 超过 序列 行 数 的 随 
机 数 ， 在 该 行 及 以 下 所 有 行 实行 交叉 。 不 同 维 交叉 是 在 短 序列 后 面 
补 齐 空位 ， 然 后 删除 全 空位 列 。 示 意图 见 图 4.19。 


Parent 1 Parent 2 


~N 
Child 1 Delete» gap cadumn Child 2 


上 RE ca eE — 
else e|] [eles Ic le 


图 4.19 ZITA 
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两 个 父 体 之 间 仅 单行 参与 交叉。 产生 一 个 不 超过 序列 行 数 的 随 
机 数 ， 在 诠 行 实行 交叉 ， 如 果 两 个 父 — hup deu y 9 
Ja EST EM, TETATT P BS BL SE — Ph A LURITM FIT ETE E, 
将 空位 移 至 字符 位 置 ， 将 选 定 Ps 位 之 间 的 这 段 回 后 (六 ) 
顺延 一 位 ， 然 后 删除 全 容 位 列 。 示 意图 见 图 4.20。 


Parent 2 


Parent 1 


PON 
mutate point mutate point 
| Child > 


Child 1 


图 4.20 — t Bt In] A8 CAE 


5. 人 交叉 操作 后 处 理 
因为 交叉 算 子 需要 2 个 父 本 ， 经 交叉 产生 2 个 新 个 体 ， 为 保持 
种 群 规模 不 变 ， 需 从 中 选择 2 个 个 体 作 为 新 一 代 。 这 种 选择 新 一 代 


的 过 程 称 为 交叉 操作 后 处 理 。 
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常见 的 后 处 理 方式 有 以 下 几 种 : 
(1) crosslto1。 子 代 序 列 1、2 替换 父 代 序列 1、2， 直 接 作 为 新 


+ 
图 4.21 crossltol 过 程 图 


(2) cross2to1。 比 较 父 代 序 列 1 和 子 代 序列 1 BgXENLBEHS A 
的 值 作为 下 一 代 ， 即 你 优 原则 ， 见 图 4.22。 


Parent1 Childl Parent2, Child2 


Compare | fitness value Compare | fitness value 


图 4.22 cross2tol 过 程 图 


Select the one T 


(3) cross4to2。 比 较 父 代 序 列 1. 2 和 子 代 序列 1、2， 从 中 选择 
适应 度 值 最 高 的 2 个 个 体 作 为 下 一 代 ， 这 个 方式 综合 了 保 优 原 则 和 
选择 精英 保留 原则 ， 算 法 构造 较 简 单 ， 见 图 4.23. 


Parentl.Childl Parent2, Child2 


Compare | fitness value 


Select the top two + New generation 


图 4.23 cross4to2 过 程 图 


433 实验 算 例 与 结果 
1. 实验 参数 


改进 交叉 算 子 的 遗传 算法 模拟 多 序列 比 对 的 实验 参数 汇总 见 
表 4.8。 
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Parameter Fitness function Sum-of-pairs 
Population size BLOSUMAS5 
Generations One point 
selection strategy 0.6 
Elitist rate One bit 


S 


1 
Programming language AB Mutation probability 0.2 


Coding [Two-dimensional] 
2. 实验 结果 与 分 析 


从 BAHBASE2.0 数据 库 中 随机 选 了 8 组 多 序列 ,以 SPS 作为 评 
估 比 对 质量 的 标准 。 由 于 遗传 算法 具有 随机 性 ， 对 相同 的 实验 用 例 
可 能 得 到 不 同 的 比 对 结 未 , 所 以 本 三 对 每 个 实验 用 例 用 同样 的 方法 
做 10 2X, 计算 其 SPS fH, 表 取 其 最 大 值 作 为 最 终 的 结 末 。 表 4.9 与 
图 4.24 P: FRoRAZA[RIAZE X.[h] tg 7g ver. HE AM xX A hor, 
多 行 横 癌 交叉 简写 为 mhor， 单 点 横 回 交叉 变异 简写 为 ctm。 


表 4.9 BAIiBASE2.01 8 组 序列 的 SPS 值 
(黑体 数字 是 该 组 序列 的 SPS 最 大 值 ) 


oPS(horlzontal cross) 


451c refl 0.2688 0.3191 0.3015 
laab refl 0.2363 0.2985 0.2198 
laho refl 0.4974 0.5641 0.5419 
Ipfc refl 0.4531 0.616 0.3456 
2cba refl 0.2394 0.4247 0.2954 
2pia refl 0.2952 0.3723 0.1941 
sptp refl 0.2571 0.2262 0.181 

kinase refl | 0.3194 0.3229 0.2408 
Time(s) 4649 3745 3217 
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max number 


ver hor mhor c+m 


图 4.24 四 种 交叉 算 子 的 SPS 比较 图 


id de 4.9 和 图 4.24 可 知 ， 纵 同 交 义 的 计算 时 间 最 多 ，c+m 的 
计算 时 间 最 少 ， 两 种 横向 交叉 的 时 间 差 不 多 。SPS 值 最 好 的 是 多 行 
HEX, wÆ ctm. AX ctm 方式 不 再 一 次 变异 ， 虽 然 节省 
了 时 间 ， 但 也 影响 了 比 对 结果 。 总 之 ， 根 据 计算 耗 时 与 计算 结果 
得 知 多 行 模 问 交叉 的 计算 效率 最 好 。 

通过 图 4.25 可 知 ， 在 相同 的 迭代 次 数 下 ， 未 经 过 保 优 处 理 的 
cross1tol 的 计算 效率 最 低 ， 保 优 处 理 的 cross2tol i& v BE f en, fH 
是 容易 局 部 收 人 钱 。 保 优 与 选择 综合 的 cross4to2 的 分 值 远 高 于 另 两 种 
后 处 理 方式 ， 说 明 改 进 算 法 有 效 。 如 果 将 多 行 模 问 交 叉 与 cross4to2 
结合 起 来 ， 将 大 大 提高 计算 效率 。 
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Comparison chart(sizeSU) 


—J*— — crossátoZ 
—13— crassZto1 
—P— crossitol 


p 
He ES as CORN m AY no RR s A S E" 


fitness value 


0 100 200 300 400 500 600 700 800 900 1000 
Generations 


图 4.25 三 种 交叉 后 处 理 的 适应 度 值 比较 网 
434 结论 


遗传 算法 是 近 儿 年 较 热门 的 多 序列 比 对 方法 ， 本 而 针对 遗传 算 
法 最 基本 的 交 义 算 子 ， 设 计 了 你 优 和 选择 混合 的 交叉 操作 后 处 理 方 
法 cross4to2， 诅 方法 不 但 服从 体 优 忌 则 ， 而 且 义 再 一 次 经 过 选择 操 
作 的 糊 英 体 留 过 程 ， 使 得 最 优秀 的 个 体 进 入 下 一 代 ， 这 种 处 理 将 算 
法 的 整体 搜索 能 力 和 局 部 搜索 能 力 大 大 捉 部 。 通 过 与 丝 典 CLUSTAL 
算法 的 比较 ， 验 证 了 充 算 法 的 有 效 性 。 从 理论 分 机 和 实例 可 匈 ， 笔 
者 提出 的 混合 后 处 理 cross4to2 在 MSA 问题 求解 上 得 到 满 昌 的 结果 ， 
同时 ， 诅 方法 应 能 推广 到 遗传 算法 在 别 的 领域 中 的 计算 。 
遗传 算法 有 两 个 基本 要 素 : 种 群 规模 和 进化 代数 。 种 群 规 模 决 
定 种 群 多 样 性 和 算法 收敛 性 ， 规 模 太 小 则 不 能 保证 多 样 性 导 任 “时 
玖 ”现象 ， 规 模 太 大 则 耗费 过 多 的 计算 时 间 。 进 化 代数 越 局 ， 计 算 
精度 越 好 ， 同 样 和 计算 时 间 成 正比 。 本 和 讨论 了 种 群 规模 与 进化 代 
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数 的 关系 ， 在 种 群 中 有 50 个 个 体 时 ， 能 保证 算法 正常 收敛 ， 提 高 
计算 分 值 和 精度 只 需 适 当 增 加 进化 代数 即 可 , 这 种 限制 种 群 规模 增 
加 进化 代数 的 处 理 使 得 算法 的 性 能 进一步 提高 。 


4.4 kh 


本 草 应 用 基本 遗传 算法 及 其 改进 的 遗传 算法 进行 多 序列 比 对 。 
基本 遗传 算法 (GA) 是 通过 对 进化 过 程 中 的 种 群 反 复 进 行 选 择 、 交 
又 、 变 寞 操作 来 模拟 上 日 然 界 中 种 群 的 演变 过 程 ， 直到 满足 一 定性 能 
要 求 才 结束 计算 ， 它 本 和 喘 的 结构 决定 了 它 可 以 用 在 多 序列 比 对 上 。 
壮 传 算法 可 以 有 效 解 决 生物 多 序列 比 对 问题 ， 但 是 遗传 算法 高 度 依 
赖 于 初始 种 群 ， 好 的 初始 种 群 可 以 得 到 好 的 结果 。 TERI HXCE, 
提高 比 对 质量 ， 本 章 从 遗传 算法 最 关键 的 组 成 部 分 入 手 ， 通 过 优化 
初始 种 群 的 质量 ， 达 到 改进 算法 的 目的 。 男 外 ， 本 革 叉 针对 遗传 算 
法 最 基本 的 交叉 算 子 ， 设 计 了 伍 优 和 选择 混合 的 交叉 操作 后 处 理 方 
法 cross4to2， 访 方法 不 但 服从 保 优 明 则 ， 而 且 又 再 一 次 经 过 选择 操 
作 的 精英 保留 过 程 ， 使 得 最 优秀 的 个 体 进 入 下 一 代 ， 这 种 处 理 将 算 
法 的 整体 搜索 能 力 和 局 部 搜索 能 力 大 大 提高 。 通 过 与 经 典 CLUSTAL 
算法 的 比较 ， 验 证 了 该 算法 的 有 效 性 。 从 理论 分 机 和 实例 可 见 ， 笔 
者 提出 的 混合 后 处 理 cross4to2 在 MSA 问题 求解 上 得 到 满意 的 结果 。 

为 适应 当前 生物 信息 的 海量 性 特征 以 及 生物 序列 翁 炸 性 增长 的 
趋势 ， 研 究 和 议 计 速度 更 快 、 精 度 更 局 、 效 率 更 好 的 改进 遗传 算法 
极为 重要 ， 这 也 是 笔者 下 一 步 的 工作 。 
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比 对 中 的 应 用 


5.1 多 序列 比 对 的 含义 


生物 信息 学 内 涵 非 常 丰富 。 其 核心 是 基因 组 信息 学 ， 包 括 基因 
组 信息 的 获取 、 处 理 、 存 储 、 分 配 和 解释 。 基 因 组 信息 学 的 关键 是 
^i" 基因组 的 核 苷 酸 顺 序 ， 即 全 部 基因 在 染色 体 上 的 确切 位 置 以 
及 各 DNA 片段 的 功能 ; 在 发 现 新 基因 信息 之 后 模拟 和 预测 重 白 质 空 
间 结 构 ， 然 后 依据 特定 蛋白 质 的 功能 进行 药物 设计 。 生 物 序列 中 的 
信息 在 系统 进化 、 生 态 守恒 、 疾 病 控制 、 病 毒 起 源 其 至 HIV 病毒 统 
计 和 传播 等 的 研究 中 是 一 个 非常 重要 的 基本 工具 。 因 此 ， 序 列 比 对 
是 生物 信息 学 的 基础 。 

下 面 给 出 序列 比 对 的 定义 : 

生命 最 重要 的 物质 基础 是 核酸 (DNA 与 RNA) 和 重 白 质 。DNA 
NT FERRIES ERRA SENG HAREE) 
胞 喀 啶 (C)。 因 此 ， 一 般 DNA 分 子 看 成 是 由 字母 表 {A, G T, C} 中 的 
元 素 组 成 的 字母 序列 , 而 一 切 物 种 的 蛋白 质 都 是 由 20 种 氨基 酸 组 成 
的 ,所 以 重 白 质 也 可 以 用 20 种 氨基 酸 的 单个 字母 {A, R, N, D, +, W, Y, 
V} 组 成 的 序列 表示 。 给 定 包 含 m 个 长 度 不 等 序列 的 待 比 对 序列 集 
S={s |i=1,2,…,ml ， 其 中 第 i 个 序列 s' = (d,i, =d), LAFZI 
s HKE, e alph set,j-1,2,-,1. alph set HFF 3E In] ILZ PE 


E 中 篇 “多 序列 比 对 模拟 篇 . 


集合 ，c 表示 一 个 核 革 酸 或 提 基 酸 碱 基 。 多 序列 比 对 束 是 通过 在 这 
些 每 比 对 序列 中 进行 空位 字符 “一 ”的 插入 和 删除 操作 ， 得 到 一 个 
多 序列 比 对 结果 的 窍 阵 ， 其 中 。 和 矩阵 4 中 的 每 一 列 为 一 个 位 点 上 的 
LN. KERE 4 的 第 i 行 对 应 参与 比 对 的 第 i 个 序列 ， 序列 中 非 空 字 
和 从 的 先后 顺序 在 比 对 中 保持 不 变 。 多 序列 比 对 的 目标 是 使 在 比 对 结 
果 中 有 尽 可 能 多 的 列 由 相同 的 非 空 字符 组 成 ， 同 时 在 由 不 同学 符 组 
成 的 列 中 茶 一 个 或 几 个 非 衬 宇 符 的 数目 尽 可 能 多 ， 以 便 发 现 不 同 序 
列 之 间 的 相似 部 分 ， 进 而 推 类 它们 在 功能 和 结构 上 的 相似 性 。 对 不 
对 结果 的 评价 可 以 采用 不 同形 式 的 目标 函数 ， 求 最 佳 比 对 的 问题 是 
一 个 NP 完全 问题 。 序列 比 对 的 根本 任务 是 : 通过 比较 生物 分 子 序列 ， 
发 现 它 们 的 相似 性 ， 找 出 序列 之 间 共 同 的 区 域 ， 同时 辨别 序列 之 则 的 
差异 。 在 分 子 生物 学 中 ，DNA 或 便 日 质 的 相似 性 是 多 方面 的 ， 可 能 是 
结构 的 相似 , 可 能 是 功能 的 相似 , 也 可 能 是 核酸 或 氨基 酸 序 列 的 相似 。 
一 个 较为 普 遇 的 规律 是 序列 决定 结构 ， 结 构 决 定 功 能 。 研 究 序 列 相似 
性 的 目的 之 一 是 通过 相似 的 友 列 得 到 相似 的 结构 或 相似 的 功能 。 

序列 比 对 分 为 全 局 比 对 和 局 部 比 对 。 全 局 比 对 要 求 把 一 个 序列 
中 的 所 有 符号 和 另 一 个 序列 中 的 所 有 符号 进行 匹配 比较 ， 它 摘 述 整 
个 序列 的 相似 性 ;局 部 比 对 独眼 于 序列 中 的 某 些 特殊 片段 ， 比 较 这 
些 厂 段 之 间 的 相似 性 。 将 两 个 序列 进行 比 对 束 是 双 厅 列 比 对 ， 现 在 
的 标准 算法 是 1970 年 由 Needleman 和 Wunsch 提出 的 基于 动态 规划 
方法 的 双 序 列 比 对 算法 。 随 看 生物 医学 中 有 更 多 的 序列 合成 出 来 ， 
人 们 开始 用 多 序列 比 对 来 更 好 地 研究 生物 序列 。 将 多 个 序列 进行 比 
对 就 是 多 序列 比 对 问题 。 多 序列 比 对 问题 是 一 个 将 不 等 长 的 多 个 序 
列 通 过 插入 空位 变 成 等 长 的 过 程 ， 这 些 位 置 上 的 空位 代表 着 相 比 对 
的 序列 从 共同 的 祖先 通过 插入 /删除 操作 的 进化 过 程 。 利 用 多 序列 比 
X ECTS SUB SUL EON, RIT H FER H E EROS] Hs (motifs) 8k D. 
SF DXX (conserved domains); 可 用 于 了 预测 重 白 质 的 结构 和 功能 ;可 用 
于 进行 系统 发 育 分 析 。 目 前 主要 有 三 种 策略 用 于 多 序列 比 对 : 
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第 一 种 策略 是 “渐进 比 对 ”策略 ， 其 基本 思想 是 : AAAH 
两 序列 动态 规划 算法 ， 先 由 两 条 序列 的 比 对 开始 , 逐渐 添加 新 序列 ， 
直到 所 有 序列 都 加 入 为 止 。 第 二 种 策略 是 使 用 随机 优化 算法 ， 根 气 
目标 函数 值 (通常 为 序列 的 得 分 函数 ) 找 出 容 位 的 最 优 人 位置， 使 序列 
比 对 的 结果 最 优 ， 如 模拟 退火 算法 (SA)、 遗 传 算 法 (GA)。 第 三 种 策 
略 基 于 概率 模型 的 隐 马 尔 可 夫 模 型 ,使 用 Baum-Welch 算法 和 Viterbi 
算法 进行 序列 比 对 。 下 和 面 使 用 的 是 第 二 种 多 序列 比 对 策略 ， 使 用 二 
进 制 的 粒子 群 优化 算法 GBPSO) 和 二 进 制 的 量子 粒子 群 优化 得 法 
(BQPSO)， 并 在 这 两 种 算法 的 过 程 中 加 入 变异 算 子 ， 避 免 比 对 的 过 
程 过 早 收 敛 ， 分别 把 这 典 种 比 对 算法 称 为 MBPSO 算法 和 MBQPSO 
AE. 


5.2 基于 二 进 制 QPSO SEE SI ER} 


521 二 进 制 的 PSO 算法 (BPSO) 


二 进 制 编码 作为 一 种 比较 重要 的 编码 形式 ， 首 先 由 JKennedy 
和 Eberhart 在 1997 年 将 基本 微粒 群 算法 应 用 于 二 进 制 编码 , 并 做 了 
大 量 的 数值 研究 。 

在 二 进 制 编码 中 ，x CD) 应 取 0 或 1， 在 第 3 章 介绍 的 PSO 算 
法 中 ，v (DO 计算 结 果 可 能 不 是 整数 ， 且 迭代 后 x ,(D) 不 可 能 总 是 0 


或 1。 
At, Kennedy 引入 模糊 函数 Sig(x) ， 其 定义 为 
-— l | 
Wel) = ] + exp(—x) we 


这 样 ，PSO 算法 中 的 迭代 公式 束 变 为 
n rand) > S(V,,) M 
Jg | (5.2) 
] rand()«(V.,) 
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mie WHE: 在 基本 秘 粒 群 拭 法 中 ，v (表示 速度 ， 能 够 对 
SIMA. x, (DO 的 方 问 和 位 置 随机 产生 一 定 的 影响 ， 使 得 算法 在 给 定 
区 域 上 进行 搜索 。 而 在 二 进 制 编码 的 微粒 群 算法 中 ，v(7) 仪表 示 一 
个 概率 ， 即 微粒 的 每 一 维 分 量 的 取 值 以 Sig v, (0) 的 概率 取 1， 而 以 
l- Sig(v, (1)) 的 概率 取 0。 


5.2.2 二 进 制 的 QPSO 算法 (BQPSO) 


QPSO 算法 的 进化 方程 与 PSO SE KAHISEE. BrUL Xt PSO 
算法 的 一 些 定义 和 改进 方法 对 于 设计 二 进 制 QPSO 算法 是 不 适合 
Hy. Œ QPSO 中 ， 没 有 速度 癌 量 ， 只 有 位 置 问 量 和 距离 。 由 于 粒子 
的 位 置 被 定义 为 一 个 二 进 制 串 ， 对 距离 和 位 置 变 换 的 定义 就 成 了 设 
计 二 进 制 QPSO(binary QPSO，BQPSO) 算 法 的 第 一 步 。 

在 所 提出 的 BQPSO 中 , 距离 定义 为 两 个 二 进 制 串 的 海 明 距 离 ， 即 

x—y|= du Gc y) (5.3) 
AP, x y PNIS XE, tfe AAMEN; KAA d, Ox 
IRSK x 和 yy 的 海 明 距 离 。 

海 明 距 离 定 义 为 两 个 串 中 不 同位 的 个 数 。 图 5.1 所 示 粒 子 X 和 

粒子 X: 的 海 明 距 离 是 7。 


人 


X; E 


设计 BQPSO 的 关键 问题 是 如 何 使 QPSO 算法 的 粒子 进化 方程 
Hz AP A HX — XE | A a P RRE E QPSO 中 ， 和 平均 最 好 位 置 
(mbest)C 是 通过 求 个 体 最 好 位 置 (pbest) 的 均值 获得 ， 在 BQPSO tP, 
C 的 第 7 位 取 值 由 所 有 粒子 的 第 j 位 的 值 确定 。 如 末 在 第 j 位 取 1 的 
MTER OEZ, CH jm EB I. fup O. WRR 0 的 粒子 
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数 与 取 1 的 粒子 数 相 等 ， 则 C 在 该 位 等 概 鞭 地 取 1 或 0， 如 图 5.2 
PIE 


pbest; 


pbest; 
EPEEEEEEEEEEEEEEEEEEEEEEEEEEEEEECEECEEEEEEE 
mbest 


SKP E ee Pr EC] DINI fi UH P : 


Get mbest(y)(381 ^. 7g Pr LT WJAI Vis dg 4 1. EC) 
for j-1 to N (the length of binary string) 
sum-0; 
for 每 一 个 粒子 i 
sum-sum-y[i]lj]: 
endfor 
avg-sum/M; 
if avg^0.5 C[j]-1; endif 
if avg<0.5  C[j]-0; endif 
if avg—0.5 
if rand( )«0.5 C[7|-0; 
else C[1]-1; 
endif 
endif 
endfor 
Return C 
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在 以 上 伪 代 码 中 , 函数 Get. mbest() 的 输入 是 所 有 粒子 的 个 体 最 
好 位 置 的 二 进 制 串 ， 输 出 是 代表 平均 最 好 位 置 C 的 二 进 制 串 。 
在 QPSO 中 ， 更 新 粒子 的 位 置 之 前 ， 必 须 求 出 局 部 级 引子 p,» 
该 点 每 一 维 坐 标 位 于 个 体 最 好 位 置 和 全 局 最 好 位 置 在 该 维 的 坐标 之 
IH]. FUÉ P; = (Da. Duas Pi) 器 均匀 地 分 布 于 以 了 和 G 为 对 角 点 的 
超 和 矩形 中 。 这 样 点 p, 到 P 了 或 G 的 距离 必定 都 小 于 对 角 线 的 长 度 ( 了 P 
和 G 的 距离 )， 即 
Ip -P|&|»-G]|. |» -G| «| -G| (5.4) 
可 以 推断 当 粒 子 的 当前 位 置 和 个 体 最 好 位 置 向 p, 点 收敛 时 ， 和 群 
体 的 多 样 性 不 断 减 小 ， 这 对 应 着 粒子 的 局 部 搜索 。 在 BQPSO 算法 
P, p, 可 以 通过 类 似 遗 传 算法 中 的 交叉 操作 获得 ， 即 通过 己 和 G 
的 交叉 产生 两 个 子 代 ， 随 机 地 选择 一 个 子 代 作 为 p 点 。 很 明显 ， 从 


海 明 距离 的 角度 看 ,通过 交叉 产生 的 p, 满足 式 (5.4)。 因 此 用 单 点 或 
多 点 交叉 产生 p 是 合乎 逻辑 的 。 图 5.3 所 示 为 通过 多 点 交叉 得 到 的 
局 部 吸引 于 pi 

pbest; 


Pp | cie 


EEEEEEEEECPEEECEEEPEEEPEEEPEEEEEEEEEEEEE 


[5.3 ii ek X mu F p, 


以 下 十 产 生产 点 过 程 的 质 述 。 


Get_P( P, ,G) 

对 P 和 G 施加 交叉 操作 产生 两 个 子 代 个 体 z A za 
if rand( )«0.5 

Pi Zi 
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else p;7z;: 
endif 
Return p; 


考虑 QPSO 的 粒子 位 置 进 化 公式 并 把 它 改写 为 如 下 形式 : 
X, - p, = elc, - X, ,In[1/v, , ()) w,()-RandQ (5.5) 
将 距离 看 作 海 明 距 离 ， 上 式 可 写 为 
dy[X, (t1), p, (0] 2 5 (5.6) 
b-a-dj[X, ,(0- C,()]-In[1/u, O], wu, (f) » RandQ (5-7) 
AP, d4LX, +D. p, (CD] 为 第 7 维 的 海 明 距 离 ， 它 取 0 或 1。 但 当 
b 的 值 大 于 1 时 , 取 海 明 距 离 为 1; 当 0<b<1 时 ， 则 可 以 产生 一 个 随 
机 数 razd0， 当 ranrd0< 时 ， 距 离 取 1， 人 否则 取 0。 从 变异 操作 的 角 
度 ， 可 将 5 看 作 每 一 位 的 变异 概率 p. BU 


Ib b«l 
DM (5.8) 
l 0«b«l 
IURE PLT hr ELI AE MG PRTE n] E P HE E] DT TOUS : 
lransf(p; ;, Pm) 
for 对 于 pi 中 的 每 一 个 二 进 制 位 ; 
if rand()«P,, 


if 该 位 的 人 为 I 
else ANEX 1; 
endif 

endif 

endfor 

Xi, jPi, j; 
Return X; ; 


有 了 以 上 的 定义 ， BQPSO 算法 的 设计 就 基本 完成 , 算法 的 描述 

如 下 : 
(D 初始 化 粒子 的 位 置 ， 即 随机 产生 粒子 的 当前 位 置 全 ， 并 将 
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个 体 最 好 位 置 了 和 置 为 P=X，。 
(2) 调用 函数 Get mbest ()， 计 算 粒 子 群 的 平均 最 好 位 置 C。 
(3) 将 粒子 当前 位 置 筷 解码 并 评价 粒子 的 目标 函数 值 A(X.) 
(适应 度 值 ), 并 与 ACP) 的 目标 函数 值 进行 比较 , 如 果 f(X,) <P), 
则 置 P= 了 XY。 
(4) 找 出 群体 的 全 局 最 好 位 置 ， 即 先 求 g = arg min (f(P))， 令 
G-P.. 2 
(5) 对 于 每 一 个 粒子 , Rp, Bp, 二 Get_P(P,G )。 
(6) 由 式 (5.6) 一 (5.8)， 求 出 Pro 
(7) 根据 p,,， 调 用 函数 Transf( )， 得 到 粒子 的 新 位 置 。 
(8) 重复 步骤 2) 一 (7), 直到 满足 停止 准则 或 达到 给 定 的 最 大 代数 。 


52.3 ”基于 BPSO 或 BQPSO H% Hr | EN 
1. 种 群 编码 


假设 有 n 条 序列 进行 比 对 ， 这 头条 序列 的 长 度 分 别 是 1 一 人 。 
本 下 中 一 个 粒 隆 代表 了 一 个 比 对 绪 未 , xx INS A UBER 3E 
行 存储 。 这 个 宇 阵 的 每 一 行 代表 了 一 条 比 对 的 序列 ， 每 一 行 的 最 大 长 
度 为 w=|1.2x1 | GUB, —max(l4,,-). XE 1.2 FARK 
因子 是 基于 观察 一 般 多 序列 比 对 的 结果 ， 其 空位 数 很 少 超过 20%. 


2. 种 群 初 始 化 


TEE P 的 初始 化 就 是 用 下 列 的 方法 不 断 地 随机 初始 矩阵 每 一 
行 。 用 随机 数 产 生 器 产生 从 ! 到 1.2x7 的 随机 数 作为 每 个 个 体 长 
度 ， 并 根据 长 度 随机 产生 插入 空位 的 点 的 集合 ， 长 上 度 超过 此 值 的 个 
体 则 舍弃 。 假设 每 个 粒子 的 长 度 为 1, ， 空 位 的 位 置 在 [0,7, ] 之 间 随 机 
产生 。 这 行 中 剩余 的 位 置 插入 对 应 的 源 友 列 。 在 MBPSO 或 MBQPSO 
算法 中 , “0” 代 表 空 位 的 位 置 ,“1” 代 表 源 序列 中 字母 的 位 置 。 
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例如 ， 对 图 5.4 所 示 的 三 条 源 序 列 S1、S2、S3 进行 比 对 。 


图 5.4 未 比 对 的 三 条 源 友 列 


假设 随机 产生 的 粒子 的 长 度 是 12， 随 机 初始 的 Sl 的 空位 的 位 
置 为 (1, 1, 8, 8)，S2 的 宇 位 的 位 置 为 (2,5)，S3 的 容 位 的 位 置 为 (3, 3, 
4, 7)。 图 5.5 表示 出 了 上 述 三 条 厅 列 的 二 进 制 编 码 。 


图 5.5 三 条 已 比 对 序列 的 三 进 制 编码 


人 根据 上 面 的 三 进 制 编码 可 以 得 到 相应 的 多 序列 比 对 结果 ， 如 
图 5.6 所 示 。 


sl A 一 — 0 Q Y H p E E = s 
S2 A E = U P WwW — Eb R K Y V 
S3 A S W 一 一 I L[— E L K — V 


图 5.6 三 条 已 比 对 的 序列 
3. j&à M B ER ET 


为 了 证 明 算 法 的 性 能 ， 使 用 两 类 打分 图 数 来 比较 比 对 绪 果 的 
好 坏 。 
第 一 关 打 分 图 数 为 : 在 实验 数据 中 不 竹 谍 参 竹 比 对 ， 使 用 标准 
的 Sum-of-Pairs 分 数 来 评价 算法 的 性 能 ， 即 
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NO) 3 Y DC 7 ) (5.9) 


这 里 是 第 字条 已 比 对 的 序列 ， 刀 为 距离 矩阵 : 

(D) 对 于 核酸 序列 ， 使 用 IUB 十 阵 作为 距离 矩阵，IUB 矩阵 是 
比较 核酸 序列 的 默认 的 分 值 矩 阵 ， 如 果 两 条 序列 的 两 个 残 基 是 比 对 
的 ， 则 分 值 为 1.9， 反 之 ， 分 值 为 0。 

(2) 对 于 蛋白质 序 列 ， 使 用 BLOSUM62 替换 矩阵 作为 距离 甜 
阵 ， 这 个 污 阵 似乎 是 最 好 可 获得 的 数据 库 中 执行 相似 性 ( 同 源 性 ) 搜 
ZR HJ o 

为 了 避免 已 比 对 的 序列 中 一 条 序列 空位 的 积聚 ， 从 SOP 分 数 中 
推 沽 出 仿 射 几 何 学 的 空位 代价 ， 对 于 比 对 结果 中 一 条 序列 的 空位 代 
从 控 照 下 面 的 公式 进行 计算 : 

Gap cost = GOP + nx GEP (5.10) 
AP, GOP RRR — DER TEMAENE: GEP 表示 对 于 扩展 的 
空位 的 罚 分 ，n 为 一 条 序列 中 空位 的 个 数 。 

对 于 已 比 对 的 每 条 序列 的 空位 都 要 计算 相应 的 空位 代价 。 多 序 
列 比 对 结果 的 SOP 的 分 值 减 去 空位 代价 的 总 和 ， 即 为 SOP 的 分 值 : 

SOP = SOP — Y Gap cost (5.11) 


式 中 ，N 为 序列 的 个 数 。 

GOP 和 GEP 的 值 分 别 设 置 为 11 和 2。 

第 二 闫 打分 图 数 为 : TESKUSTAIR B. TER BG. WEH 
如 下 的 两 个 打分 图 数 ， 这 两 个 打分 图 效 者 使 用 了 BAHBASE 参考 
比 对 。 

第 一 个 函数 是 Sum-of-Pairs Score(SPS): wA N ^b 
yj, IR MY, RER i 列 的 比 对 列 为 ALAS 4 。 对 每 一 对 残 
基 A, PIA, , SEXES pu, UTR A, LA, TELS) ZR A RP EA 
于 同一 列 ， 则 p, —1, EW p, 20. EXE 5 为 第 i 列 的 得 分 ， 
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则 有 
$- Y Y», (5.12) 
j-l.jzk k-l 
记 SPS 为 最 终 比 对 结果 的 得 分 ， 则 
M 
s B 
See, (5.13) 
L-i-l i 


AP, M, EDAR ARPHI Sy 26225 HERT ARP SS EPIS] 
得 分 。 

用 访 施 数 进 行 评 价 时 ， 比 对 结 未 的 得 分 越 多 ， 说 明 比 对 的 结 未 

第 二 个 函数 是 Column Score(CS): 对 比 对 结果 有 的 第 i 列 ， 如 果 
这 列 中 所 有 的 残 基 在 参 压 比 对 中 也 位 于 同一 列 ， 则 G -1. frhu 
C =0。 控 照 下 面 的 公式 对 比 对 结果 进行 CS 打分 。 

CS2Y CM, (5.14) 

AP, M, 是 参考 比 对 结果 中 比 对 列 的 个 数 。 

4. ST 


为 了 避免 在 拭 法 运行 过 程 中 粒子 群 出 现 早熟 现象 ， 在 二 进 制 的 
PSO 或 QPSO 拼 法 中 加 入 变 卉 和 担子， 执行 的 操作 为 在 全 局 最 优 位 置 
gbest 的 位 置 品 量 上 加 入 变 卉 操作 。 上 其 体 的 过 程 如 下 : 

(1) 复制 gbest HŒ, id gbest xin; 

(2) 对 每 一 个 gbest xin， 随 机 选取 变 卉 的 位 置 ]， 对 每 一 个 
gbest xin 指定 个 同 的 变 卉 的 位 置 。 

(3) 对 每 一 个 gbest xin, 改变 它 的 第 ] ÆRE, 第 ] 维 如 果 为 0， 
LAE l; WRA 1, WEN 0. 

假如 f(gbest xin) 的 值 优 于 f(gbest) 的 值 , 则 在 下 一 代 的 评估 中 用 
gbest xin $414 gbest; 假如 fgbesb 的 值 优 于 f(gbest xih., MÆ 
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种 和 群 中 删除 gbest xin. 
5. 程序 流程 


procedure MSA MBPSO (MSA MBQPSO) 

being 

初始 化 种 群 P 

While ( 没 达到 终止 条 件 ) do 

Begin 

For 每 一 个 粒子 do 

把 二 进 制 编码 转换 成 多 序列 比 对 : 

根据 式 (5.11) 或 (5.13) 或 (5.14) 计 算 每 一 个 粒子 每 一 个 比 对 ) 的 目标 函数 值 ; 


end 

在 整个 粒子 群 中 找 出 全 局 最 优 位 置 ，gbest=pbest[g][:]; 
应 用 变异 操作 

使 用 BPSO 或 BQPSO 算法 更 新 粒 子 的 位 将 ; 

end 

end 

end 


上 和 面 的 程序 运行 结果 会 出 现 一 个 问题 ， 根据 长 度 ， 由 粒子 群 优 
化 算法 速度 公式 产生 的 插入 空位 点 的 集合 与 实际 需要 容 位 数 不 一 致 
的 问题 。 解 决 办 法 : 比 实 际 需 要 的 空位 数 多 的 情况 ， 随 机 选取 其 中 
与 实际 需要 空位 数 个 数 的 点 ; 比 实际 需要 的 空位 数 少 的 情况 ， 通 过 
随机 数 产 生 器 产生 所 缺 个 数 | 0,| 1.2xAs 71, | 个 之 间 的 整数 ， 作 为 
新 增 空位 点 添加 到 ww 中 。 

图 5.7(a) 和 (b) 分 别 给 出 了 重 晶 质 序列 家 族 1idy 的 BPSO 和 BQPSO 
的 序列 比 对 的 结果 ; 图 5.8(a) 和 (5b) 分别 给 出 了 蛋白 质 序列 家 族 1krn 
的 BPSO 和 BQPSO 的 序列 比 对 的 结果 ; 图 5.9(a) 和 (b) 分 别 给 出 了 和 后 
白质 序列 家 族 kinase 的 BPSO 和 BQPSO 的 序列 比 对 的 结果 。 从 6 
个 序列 比 对 的 结果 中 可 以 得 出 ，BQPSO 找到 的 相似 性 区 域 最 多 。 
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lidy 
lhstà 
laoy 
1jhgÀ 
lb636C 


lidy 
ihstå 
laoy 
1j]hgÀ 
lt53c 


lidy 
lhstài 
laovy 
1jhgà 
LUD3L 


lidy 
lhstà 
laoy 
1]hdgÀ 
LORS 


图 5.7 


plin petma 
urot rat 

hgtfa human 
faiz human 
urtg desro 


plin petma 
urot rat 

hgfa human 
faiz human 
urtg desro 
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MER----EV 
IRRLLAAGV 
LTEFGAVRET 
---LKAAPV 


(a) BPSO 友 列 比 对 的 结果 


HEVERKTSWIEEEDRILYQA--HERL-GNRWAEIAEKLLPG------ E--TDHAIEKNMHWNST 
J---HPT-YSEMIAAAIRA--ERSBRGGOSROSIQRYIROHYKVGHN--ADLOIKLSIREL 
H---RSSAROEELVKAFKAL-LREERFSODOQGEIVAALOE---QGFDNINQSEKVSRMLTKF 
I----PD-EREALGTEVEIIEELLREGEMDOQRELENELG------- A--GIATITRGSONSL 
R---GSÀ-LSDTERAQLDV--MELL-NVSLHEMSRKIS------- R--SRHCIRVYLEDP 


MRREV 
LÀAGV 
GAVRT 
KAAPV 
VSYGT 


(b) BQPSO 序列 比 对 的 结果 


蛋白 质 序 列 家 族 lidy 的 BPSO 和 BQPSO 的 序列 比 对 的 结果 


ACVRGTGEGYRGTAALTVSGKACOAWADOQ-TPGDVYSCQGLVS-------- NYCRNPDGE 
DCYVGEGVTYRGTHSOFTTSKASCLPWNHSMILIGETYTAWRANDQALGLGRHNHYCRHPDGD 
-CFLGMGTGYRGVASTSASGLSCLAWMSDLLYOELHVDSVGAAALLGLGOPHAYCENPDND 
AJCYDGRGLOYRGLARTTLSOGAPCOPWASEATYRNVTAEQ--—-AEHMWGLOGGHAFCRENPDND 
TCYEKDOGVTYRGIWSTSESGAQCINWMSHLLIERTYNGEMPEAVELGLGMHNYCENPDGA 


to, + ARF eo t tt Ricci 


9 I ea —TTEYCNVP» 
AKPWCHVMEDEKLTWEYCDHMSP 
ERPWICTYVVEDSALSWEYCRLEÀ 
IRPWCFVLHEDRLSWEYCDLAO 
AJKPWCYVIKARKFTSESCSVPV 


TER > t T 


(a) BPSO 厅 列 比 对 的 结 来 


图 5.8 ”蛋白质 序列 家 族 Ikm 的 BPSO 和 BQPSO 的 序列 比 对 的 结果 
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plmn petma 
urot rat 

hgfa human 
falz human 
urtg desro 


ACVEGTGEGYRGTAALTVSGKACQAWASQTP-GDVYS------- COGL-VSNYCRNPDGE 
DCYVGEGVTYRGTHSFTTSKASCLPWNSMILIGETYTAWRANMSQALGLGRHNYCRHPDGD 
-CFLGNGTGYRGVASTSASGLSCLAWNSDLLYQELHVDSVGAAALLGLGPHAYCRNPDND 
JSCYDGRGLSYRGLARTTLOGAPCOPWASEATYRNVTÀ---EOARNWGLGGHAFCRNPDND 
TCYEDQGVTYRGTWSTSESGAQCINWNSNLLIRRTTNGRMPEAVELGLGNHNYCRHPDGA 


十 0. E JG t +*+ tt a 富家 家 过 家 
plmn petma KLPWCY-------— TITEYCNVPS 
urot rat ARKPWCHVMEDRELTWEYCDHMSP 
hgfa human ERPWCYTVVEDSALSWEYCELEÀAÀ 


IRPWCFVLHRDELSWEYCDLAG 
SEPHNCYVIKAREKFTSESCSVPV 


TER, >» + $ u 


(b) BQPSO 厅 列 比 对 的 结果 
图 5.8 蛋白 质 序 列 家 族 Ikm 的 BPSO 和 BQPSO 的 序列 比 对 的 结果 ( 续 ) 


falz human 
urtg desro 


kecá yeast NYIFGRTLGAGSFGVVROLRELSTHEDVAIEKILLEEKALOGMNNVQOL--OMLYEELSILOE- 

dafl caeel OIRLTGRVGSGRFGNV--SRGDYRGEAVAVEVF------—- NAÀLDE--PAFHEKETEIFETR 

kpro maize TREFEKVELGRGESGTV-YEGVLEDDRHVAVEKEL------- ENVROGKEVFOAELSVIGR- 

ican HYEVGRRIGEGSFGVIFEGTNLLNNOQVAIKF-------- EPRRSDAPOLRDEYRTYEL- 

dmk human DFEILEVIGRGAFSEVAVVRKMEKOTGOVYAMKIMNKWD---MLKRGEVSCFREERDVL--- 
s+ + . dr TEE. 


-LSl----PNIVSF--EDUFESE--DEFTIVIOLRIGGELFDRILSOROGRFT----E---- 
MLRH----PHVLRYIGSDRVDTGFVTELWLVTEYHPSGSLHDFLLENTVNI----ETYYN 
-INH----MNHLVRI--WGFCSEG--SHRLLVSETYVENGSLANILFSEGGNILLDWEGRFN 


keca yeast 
dafi caeel 
kpro maize 


lcsn -LAGLIGIPNY YI 一 一 一 一 一 cOEG--LHNVLVIDLL-GPSLEDLLDLCGREF--------- 
dmk human -VNGDRRWITOLHFAFQDE------NYLYLVMEYTYVGGDLLTLLSKFGERI--------- 
: . X -— : 


keca yeast 


dafi caeel LMRERSTASGLAFLHNMOIGGSEKESNEKPAMAHRDIESKNIMV----- ENDLTCAIGDLGLSLS 
kpro maize IALGVAKGLAYLHHEC------- LEWZIHCDVKPENILL----- DOAFEPEITDFGLVEL 
lcsn ---SVKTVAMAAKOMLARVOSIHEKSLVYRDIKPDNFLIGRPHNSENANMIYVVDFGMVEF 
dmk human ---PAEMARFYLAEIVMAIDSVHRLGYVHRDIKPDNILL----- DRCGHIRLAÀDFGSCLE 
£ TET. TS T SRL 
kecá yeast KOLEGEEDLI----YTE-AÀAGSLGYVAPEVL------ TODGHGEP-CDIWSIGVITYTLLC 
dafl caeel KPEDAASDIIANENTEK--CGTVRYLAPEILNSTMQFTVFESYOC-ADVYSFSLVMUETLC 
kpro maize LNRGGSTQNV----SH-VRGTLGYIAPEWV------ SS9LPITAK-VDVYSYGVVLLELLT 
lcsn YRDPVTKOHIPYREKENLSGTARYHMSINTH------ LGREQSRR-DDLEALGHVFMYFLE 
dmk human LRADGTVRESLV------ ÀVGTPDYLSPEILQAVGGGPGTGSYGPECDWWALGVFAYEMF 
: "PN " = í 
kcc2 yeast GYS----- PFIAESVEGFMEECTASRYPVTFHMPYWDHISIDVERF-ILEKALRLNPADRP 
dafi caeel RCEDGDVLPREALATVIPYIE-------------- WITDRDPQDAQMFDVVCTRRLRPTENP 
kpro maize (一 一 一 一 一 一 一 IBRVSELVGG------------------ TDEVHSMLRELVRMLSARKLEGEEQS 
lcsn 与 一 一 一 一 一 一 一 一 一 一 SLPWOQGLEAATNEQKYERIGEKEQSTPLRELCAGFPEEFYKYMHYARNL 
dimk human g------------- OTPFYADSTAETYGKIVHYEEHLSLPLVDEGVPEEARDFIORLLCP 
keca yeast TATELLDDP---------------- WITSE 
dafl caeel LURKDHPEME---------------- HIMEI 
kpro maize WIDGYLDSELHEPVNYVOARTLIKLAVSCL 
lcsn AFDATPDYD----------- YLQGLFSEVL 
dmk human 


一 一 一 一 一 PETRLGRGGAGDFRTHPFFFGLDWD 
(a) BPSO 序列 比 对 的 结 末 


图 5.9 ”和 蛋 白质 序 列 家 族 kinase 的 BPSO 和 BQPSO 的 序列 比 对 的 结果 
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kecá yeast 
dafi caeel 
kpro maize 
lcsn 

Amk human 


keč yeast 
dafl caeel 
kpro maize 
lcsn 

dmk human 


kccz yeast 
dafi caeel 
kpro maize 
lcsn 

dmk human 


Kccá yeast 
dafi caeel 
kpro maize 
lcsn 

dik human 


kccz yeast 
dafi caeel 
kpro maize 
lcsn 

dmk human 


kccz yeast 
dafi caeel 
kpro maize 
lcsn 

dmk human 
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NYIFGRTLGAGSFGVVROARKLSTNEDVAIKILLEKKALOGNNVOLOMLYEELSILGO--EL 
QIRLTGRVGSOGRFGNVSRGD--YREGEAVAVEVFNAL------- DEPAFHEKETEIFETRHML 
TREFEVELGRGESGTVYEGV-LEDDRHVAVERLENV-R----QGKEVFOAELSVIG--RI 
HYEVGRRIGEGSFGVIFEGTNLLNNOOVAIKFEPRR------ 3DAPOLRDEYRTYEK--LL 
DFEILEKVIGRGAFDEVAVVEMEOTIGQVYAMKIMNKWDML-ERGEVSCFREERDUVLUV--NG 


eE Eo oOo in Wi" - D 


j-HPNIVSFEDWFESEK------ DEFYIVTOLATGGELFDRILSRGKFTEVDÀ-V-E-IIV 
R-HPNVLRYI--GSDREVDTGFVTELWLVTEYHPSGSLHDFLLENTVNIET----YYNLMR 
N-HMNLVRIWGFCSEG------— JAJHRLLVSETYVENHGSLANILFSEGGMILLDWEGREFHNHILAL 
AGCTGIPNVYYFGOEG------ LHNVLVIDL-LGPSLEDLLDLCGREKFSVKT-VAM-AAÀK 
D-RRUITOLHFAFODE------ NHYLYLVMEYYVGGDLLTLLSEKFGERIPAEM-ARF-YLÀ 


d - Pow 


QILGAVEYM---------- HoOEKNVVHRDLEPEHVLYVDEKS--EN-SPLVIADFGIAKOLE 
JIASGLAFLHNOIGGSEKESNEPAMAHRDIESKNIMVE-ND----- LICAIGDLGLSLSOKP 
GVAEGLAYLHHE------- CLEWVIHCDVEPENILLD-QA----- FEPKITDFGLVEKLLN 


LLLI : | Tit* 


RGGSTQONV----- JHVRGTLGYIAPEWVSSLPI------- TAKVDVYSYGVVLLELLTGT 
DPVTEOHIPYREKENLSGTARYMS INTHLGREQ------- SRRDDLEALGHVFMYFLRGS 
ADGTVESL------ VAVGTPDYLSPEILOQAVGGGPGTGOSYGPECDWWALGVFATYEMFYGO 


Tu Wes s * t a - 


JPFIAÀ---ESVEGFMEECTAS-RYPVTFHMPY--WD-NISIDVKRFI---LE-ALRLNPA 
ED--5---D]----——————— VLPREAATVIPYIEWIDRDPODAOMFD--VVC-TRRLREPT 
RV--5---ELVGGTDEVHSMLRELVRMLSAKL------- EGEEQSWIDGYLD-SEKLNRPV 
LPWOGLKEAATNEK---QETERIGEKEKGQSTPLRE--LCAGFPEEFTYTEYM----HYARNLAFD 
TIPFYÀAÀ---DSTÀ---ETYGKIVHYKEHLSLPL--VDEGVPEEARDFI----Q--RLLCPP 


À---TELLDDPWITSEK 
ENPL----W---KEDHPEMEHIMEI 
À---RT-LIELAVSCL 
alpe--—- D---YDYLOGLFSEVL 
ETRLGREGGAGDFRTHPFFFGLDUWD 


(b) BOPSO JT 7] EX B 2i R 


图 5.9 蛋白质 序列 家 族 kinase 的 BPSO 4l BQPSO 的 序列 比 对 的 结果 ( 续 ) 


9.9. 7n 


本 章 介 绍 了 基于 二 进 制 的 PSO 和 二 进 制 的 QPSO 的 多 序列 比 对 
算法 ， 为 了 避免 算法 的 早熟 ， 在 算法 过 程 中 ， 加 入 了 变异 算 子 ， 从 试 
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验 结 果 中 可 以 看 出 ， 不 论 对 于 核酸 序列 还 是 生日 质 序 列 ，MBQPSO 
得 出 的 序列 比 对 结果 的 SOP、SPS、CS 的 平均 分 值 在 绝 大 多 数 实例 
中 都 是 最 高 的 ， 因 此 MBQPSO 算法 的 性 能 最 优 ，MBPSO 的 性 能 次 
之 ; 在 收敛 速度 上 ,虽然 MBQPSO 的 收敛 速度 不 如 SA. GA. SAGAS 
MBPSO 的 收敛 速度 快 ， 但 是 MBQPSO 几乎 在 整个 进化 过 程 中 ， 性 
能 都 优 于 SA、GA、SAGA、MBPSO。 但 是 MBQPSO 和 MBPSO 算 
法 ， 随 大 序 列 长 大 的 增加 ， 性 能 不 如 CW, SAGA. T-Coffee 这 些 算 
法 得 出 的 序列 比 对 的 结果 好 。 

在 此 需要 指出 的 是 ， 在 BPSO 和 BQPSO 中 加 入 变异 操作 ， 增 
加 了 种 和 群 的 多 样 性 , 可 以 加 快 种 群 的 收敛 速度 ， 并 且 可 以 使 算法 避 
倪 陷 入 局 部 最 优 。 在 GA 算法 中 ， 虽 然 也 有 许多 交叉 和 变异 操作 ， 
但 是 它们 在 实现 多 序列 比 对 的 过 程 中 控制 和 操作 起 来 非常 复杂 ， 
SA 算法 中 冷却 进度 表 的 控制 、 衰 减 因 于、 迭代 次 数 等 参数 的 控制 
也 非常 复杂 ， 并 且 SA 对 这 些 参数 的 设置 都 非 沼 的 敏感 ， 在 SAGA 
算法 中 ， 结 合 了 22 种 不 同 的 算 子 进行 多 序列 比 对 ， 并 且 在 两 代 之 
间 进 行 变异 操作 。 相 对 而 言 ， MBPSO 和 MBQPSO 算法 实现 起 来 比 
较 容易 控制 和 操作 。 

还 需要 说 明 的 是 ， 在 使 用 SPS 或 CS 进行 打分 时 ， 对 于 短 序列 
和 中 序列 来 说 ，MBPSO 和 MBQPSO 取得 了 较 好 的 分 值 ， 并 且 和 
参考 比 对 相 比 找到 了 较 多 的 相似 区 域 。 但 是 ， 对 于 长 序列 来 说 ， 
MBPSO 和 MBQPSO 算法 不 如 CW, SAGA 和 T-Coffee 这 些 主要 的 
多 序列 比 对 得 到 的 得 分 高 。 原 因 是 这 些 算 法 都 是 一 些 高 度 专业 化 的 
比 对 工具 , 它们 在 实现 的 过 程 中 芳 谍 到 了 方方面面 的 问题 , 例如 在 
T-Coffee 算法 中 , 是 基于 渐进 策略 来 避免 在 算法 过 程 中 出 现 的 严重 
失误 ， 这 些 失 误 是 由 算法 的 贫 获 的 本 性 造成 的 ; 在 SAGA 算法 中 ， 
使 用 了 22 种 不 同 的 算 子 和 变 卉 操作 来 避免 算法 中 出 现 卉 汕 情 况 ， 
并 且 此 算法 在 以 SOP 作为 目标 函数 时 ， 比 其 他 算法 的 性 能 更 好 ; 在 
CLUSTALW 实现 的 过 程 中 , 评估 所 有 序列 两 两 之 间 的 进化 距离 来 创 
建 进 化 树 ， 考 虑 所 有 序列 之 间 的 相关 性 。 
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总 之 ， 可 以 得 出 ，MBPSO 和 MBQPSO 算法 在 多 序列 比 对 中 
是 一 个 非常 有 效 的 优化 得法。 将 来 的 研究 工作 的 重心 放 在 长 序列 
上 ， 设 法 改进 MBPSO 或 MBQPSO 算法 ， 来 提高 比 对 的 性 能 。 
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第 6 章 ”基于 隐 马 尔 可 夫 模 型 和 QPSO 
算法 的 多 序列 比 对 


6.1 5l 


fr Emp B. DERAIGÉ H ng 3: P 7J-RGENLH T ETT 
列 比 对 ， 妈 “渐进 比 对 ”策略 、 使 用 随机 优化 算法 和 基于 概率 模型 
的 隐 马 尔 可 夫 模 型 。 

下 面 的 多 序列 比 对 过 程 使 用 的 是 第 三 种 梨 略 。 在 多 序列 比 对 的 
过 程 中 ，HMM 主要 解决 三 个 问题 : 一 是 得 分 问题 ， 二 是 联 配 问题 ， 
三 是 训练 问题 。 将 得 分 问题 用 来 评估 模型 的 性 能 ， 联 配 问 题 用 来 实 
现 多 序列 的 比 对 ， 训 练 回 题 用 来 优化 模型 的 参数 。 最 帅 用 的 训练 
HMM 模型 的 方法 是 基于 统计 和 重 佑 的 方法 ， 如 Baum-Welch 算法 ， 
但 是 Baum-Welch 算法 是 一 个 局 部 最 优 得法， 使 用 此 算法 得 到 的 了 最 
终 比 对 结果 通常 远离 全 局 最 优 。 最 近 还 出 现 了 粒子 群 算法 (PSO), 此 
算法 也 是 一 个 局 部 最 优 算法 。 

为 了 克服 Baum-Welch 算法 和 PSO 算法 的 缺点 ， 本 章 使 用 量子 
粒子 和 群 优化 (QPSO) 算 法 及 其 多 样 性 控制 的 QPSO 算法 和 多 样 性 引导 
的 QPSO 算法 来 训练 HMM, MEATU, BENLE. JHE% 
盖 所 有 解 空间 ， 保 证 算法 的 全 局 收敛 。 


IE 中 篇 “多 序列 比 对 模拟 篇 .2 
6.2 了 区 马尔 可 天 模型 


ES 5 4 n] ACE (hidden markov model，HMMD) 是 统计 模型 ， 它 
用 来 拍 述 一 个 含有 隐 含 未 知 参数 的 马尔 可 夫 过 程 。 其 难点 是 从 可 观 
察 的 参数 中 确定 该 过 程 的 隐 仿 参数。 然后 利用 这 些 参数 来 做 进一步 
的 分 析 ， 如 模式 识别 。 

在 正 弟 的 马尔 可 夫 模 型 中 ,状态 对 于 观察 者 来 说 是 直接 可 见 的 。 
这 样 状态 的 转换 概率 便 是 全 部 的 参数 。 而 在 隐 马 尔 可 夫 模 型 中 ， 状 
态 并 不 是 百 接 可 见 的 ， 但 是 受 状 态 影 啊 的 茶 些 变量 则 是 可 见 的 。 每 
一 个 状态 在 可 能 输出 的 符号 上 都 有 一 概率 分 布 。 因 此 输出 符号 的 序 
列 能 够 透露 出 状态 序列 的 一 些 信 息 。 


6.2.1 隐 马 尔 可 夫 模 型 的 基本 原理 


隐 马 尔 可 夫 模 型 是 在 马尔 可 夫 模 型 的 基础 上 发 展 起 来 的 。 马 尔 
可 夫 模 型 与 隐 马 尔 可 夫 模 型 的 本 质 区 别 是 隐 马 尔 可 夫 模 型 观察 到 的 
符号 并 不 是 与 状态 一 一 对 应 ， 而 是 通过 一 组 概率 分 布 相 联系 。 这 样 ， 
站 在 观察 者 的 角度 ， 只 能 看 到 发 出 符号 ， 不 能 直接 看 到 状态 。 因 此 ， 
不 像 马 尔 可 夫 模 型 观察 到 的 符号 和 状态 一 一 对 应 。 

隐 马 尔 可 夫 模 型 是 一 种 统计 模型 ， 在 语音 识别 等 方面 被 广泛 应 
用 。 隐 马尔 可 夫 模 型 也 被 较 早 地 应 用 于 生物 信息 学 中 的 一 些 问题 ， 
如 DNA 编码 区 、 和 蛋白 质 超 家 族 (superfamily) 的 建 模 等 。 Rabiner 给 出 
了 隐 马 尔 可 夫 模 型 的 一 个 次 入 浅 出 的 清晰 介绍 。 一 个 隐 马 尔 可 夫 模 
型 可 以 由 下 列 参数 摘 述 : 

(1) N 一 一 模型 中 马尔 可 夫 链 的 状态 数目 。 记 N 个 状态 为 
0,0,,-…,0,， 那 么 状态 空间 表示 为 $={0 ,606,,…,0,1。 一 般 将 状态 空 
BWN S= 11,2,- N} 。 记 1 时 刻 马 尔 可 夫 链 所 处 状态 为 gq， 其 中 
q,eSs. 

(2) M 一 一 每 个 状态 对 应 的 可 能 的 观察 符号 数目 。 记 M 个 观察 
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fr 。 记 上 时 刻 观 察 到 的 符号 为 o, ， 其 中 os 三 。 

(3) zt 一 一 初始 状态 概率 向 量 。 x = (T, TA) IEIR T E 
t-l1 时 ( 即 初 始 时 刻 ) 处 于 状态 i RRK, Bl, = P(g,, jla =i), 
I?7 Na 

(4) 4 一 一 状态 转移 概率 矩阵 。4 =|a, |，、， 其 元 素 a, 是 指 1 
时 刻 状 态 为 i 时 , ttl 时 刻 状 态 为 的 概率 , B a, = P(g,,, jlag =i, 
IxiiüjeN. 

(5 B 一 一 符号 发 出 概率 和 矩阵。B=|b,(k) | > Nous b) 
是 指 1 时 刻 状态 为 7 时 ， 输 出 观测 符号 vy 的 概率 ， 即 b (E) = P(o, = 
vla =j) ISjE€N, IXkxM. 

XIE, AWA ESI RIA ATQNM.m.A B), mf] 
13 ATQ AB). 


6.2.2 隐 马 尔 可 夫 模 型 的 基本 问题 与 算法 


为 了 将 隐 马 尔 可 夫 模 型 应 用 于 实际 ， 必 须 解 决 三 个 关键 的 基本 
问题 : 

(1) 得 分 问题 。 给 定 隐 马尔 可 夫 模 型 和 一 条 可 观察 的 符号 序列 ， 
欲 知道 给 定 隐 马尔 可 夫 模 型 产生 该 条 可 观察 符号 序列 的 概率 。 

(2) 联 配 问题 。 给 定 隐 马尔 可 夫 模 型 和 一 条 可 观察 的 符号 序列 ， 
欲 知道 给 定 隐 马尔 可 夫 模 型 产生 该 条 可 观察 符号 序列 的 最 可 能 的 
(或 最 佳 的 ) 状 态 序 列 。 

(3) 训练 问题 。 给 定 一 条 可 观察 的 符号 序列 数据 ， 售 找到 最 能 
说 明 该 条 序列 数据 的 隐 马 尔 可 夫 模 型 的 构 型 和 参数 。 

这 三 个 问题 可 以 分 别 使 用 同 前 算法 或 加 后 算法 、Viterbi 动态 规 
划算 法 和 Baum-Welch 3& fi V (EM) RE SK o 

为 了 使 隐 马 尔 可 夫 模 型 在 数学 上 和 计算 上 易于 处 理 ， 需 要 对 
模型 在 理论 上 做 如 下 的 假设 。 

假设 6.1: 对 于 可 观察 符号 序列 oo ,---o, 和 状态 序列 qqa ,-…g,， 
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P(o, | q.d, ---4,,0,0, --0, ,) = P(0, |q,) (6.1) 
式 (6.1) 说 明 ， 在 隐 马 尔 可 夫 模 型 中 ， 时 刻 上 输出 的 符号 仅 与 此 
刻 的 状态 有 关 ， 而 与 此 前 输出 的 符号 和 状态 无 天 。 
假设 6.2: 对 于 可 观察 符号 序列 oo ,…:o 和 状态 序列 gg ,-…g,,， 
假定 有 
JE Fal) (0.2) 
式 (6.2) 说 明 ， 在 隐 马 尔 可 夫 模 型 中 ， 时 刻 Ed 的 状态 取 值 仅 与 
时 刻 z 的 状态 取 值 有 关 ， 而 与 此 前 输出 的 符号 和 状态 无 关 。 
1. 回 朋 算法 


XE X. [Hn] BU AE *& a, (2) 为 
a,(i) - P(oo ,--:0,,q, i| A); E (6.3) 
AP, ai 是 给 定 模型 4， 在 时 刻 t 状态 为 i 时 观察 到 的 部 分 友 
列 o,0, --- o, 的 概率 。 
回 表 算法 的 有 具体 实现 步骤 如 下 : 
(1) 初始 化 : 
a(i)-zb(o); lXiXN (6.4) 
(2) 递归 计算 : 
a (j) -| $a 0a, | (on), 1€rxT-1, Ix jxN (6.5) 
(3) RAAR: 
P(O|A)— 2.0; (i) (6.6) 
2. 向 后 算法 
XE X. HEEE B, (1) 为 
A) = P(o,,0,,-0,|1g, 25,4), 1StST-1 (6.7) 


NP, BG) 是 给 定 模 型 4， 在 1 时刻 状 态 为 i 时 观察 到 的 部 分 序列 
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0,10142 0r FIRE 
加 后 算法 的 具体 实现 步 又 如 下 : 
(1) 初始 化 : 
B=1, IXixN (6.8) 
(2) XS H TES: 


BO) = S a,b. (0,08, ND, tT-LT-2,-,1, I1€ixN (69) 
G) 最 终结 果 : 
PO) - YA (6.10) 
3. Viterbi 动态 规划 算法 
详 见 6.3.3 节 。 
4. Baum-Welch 重 估计 (EM) 算 法 


为 了 实施 Baum-Welch 重 估计 (EM) 算 法 ， 对 于 给 定 的 训练 序列 
O 和 模型 和 4， 定义 xQ) 为 时刻 1 时 状态 序列 处 于 状态 i 的 概率 ， 即 


n() =P(q, =i|Q,) (6.11) 
利用 隐 马 尔 可 夫 模 型 假设 和 向 前 /向 后 算法 ， 有 
CA «ORO RAIA i 


POIA  POID Y'a) 


类 似 地 ， 对 于 给 定 的 训练 序列 O MRA, EXEC 7) ANZA 
E 时 状态 序列 处 于 状态 i 和 时 刻 tt1 时 处 于 状态 7 的 概率 ， 即 
& (ij) =P, =i,gm = ]|O.A) (6.13) 
同样 ， 利 用 隐 马 尔 可 夫 模 型 假设 和 向 前 /向 后 算法 ， 有 
P(g =i q 7 j.O|A) a G)a,b (0 ) B) 


P(O | A) Y aO) 


LONE 
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Ns za) fé, )mkX. ra) f EG WERA: 
nr) - 6.) (6.15) 


6.3 ”基于 剖面 HMM 和 QPSO 的 多 序列 比 对 


本 节 使 用 的 是 一 种 标准 的 剖面 HMM 的 拓扑 结构 用 于 多 序列 的 
比 对 ， 最 初 由 Krogh 等 (1994) 所 出 ， 如 图 6.1 所 示 。 该 模型 包含 J 
一 系列 的 状态 (5,5,,…,S,) ， 这 些 状态 被 分 成 三 组 ， 分 别 是 匹配 
状态 (MD)、 插 入 状态 D 和 缺失 状态 (D)。 该 模型 是 包含 这 三 种 状态 
重复 集 的 简单 的 从 左 至 右 的 结构 。 为 了 研究 的 方便 ， 再 引入 两 个 
额外 的 状态 ， 开始 状态 (begin) 和 结束 状态 (end)。 状 态 之 间 通 过 转移 
概率 a, 相 联系 ， 转 移 概 率 具有 下 面 的 性 质 ，a, 20 1j nf 
H Ya, 21 1&i n. 一 个 匹配 状态 或 一 个 插入 状态 按照 一 定 的 符 


写 发 出 概率 5b(k) 友 出 一 个 可 见 符 写 V， 符 写 发 出 概率 具有 下 而 的 
MUR: b()m0, 1x j&n, I k M JEB Y 5 (kL Ix jn, 


这 里 M ABRENTE FAH o WRAS MIRIN fu 
束 状 态 都 不 肥 出 任何 人 符 扎 。 


OO 
MEL 
LY toj cQ 


图 6.1 用 于 多 序列 比 对 的 隐 马 尔 可 夫 模型 
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当 使 用 图 6.1 所 示 的 HMM 进行 多 序列 比 对 时 ， 每 条 序列 从 开 
始 到 结束 通过 这 些 状态 罕 越 模型 ， 在 这 些 竺 比 对 序列 中 进行 衬 位 宇 
从 “一 ”的 插入 和 删除 操作 ， 得 到 一 个 多 序列 比 对 结果 的 矩阵 
A=(a,),w,， 其 中 a € alph_set ot « EFE A 中 的 每 一 列 为 一 个 位 
点 上 的 比 对 ， 和 矩阵 4 的 第 i 行 对 应 参与 比 对 的 第 i 个 序列 ， 友 列 中 非 
宇 字 符 的 先后 顺序 在 比 对 中 保持 不 变 。 多 序列 比 对 的 目标 是 使 在 比 对 
结果 中 有 尽 可 能 多 的 列 由 相同 的 非 衬 字符 组 成 , 同时 在 由 不 同 字 符 组 
成 的 列 中 某 一 个 或 几 个 非 空 池 符 的 数目 尽 可 能 多 , 以便 发 现 不 同 序列 
之 则 的 相似 部 分 ， 进 而 推 凯 它 们 在 功能 和 结构 上 的 相似 性 。 

用 量子 粒子 群 优化 算法 训练 剖面 HMM 时 ， 每 一 个 粒子 代表 一 
个 HMM， 通 过 不 断 地 更 新 粒子 的 位 置 来 优化 HMM。 在 训练 中 保 

手 模 型 的 长 度 不 变 , 仅仅 优化 模型 的 参数 : 转移 概率 和 符号 有 友 出 概 
A, XA] 6.1 所 示 的 HMM 的 拓扑 结构 ， 取 竺 比 对 序列 的 平均 值 m 
为 模型 的 长 上 度 ， 不 考虑 初始 状态 和 结束 状态 ， 则 模型 的 状态 数 为 
3m +1 ， 状 态 转移 概率 参数 为 33m +D t: 设 字符 集 大 小 为 |4j H 
有 (2m+])| 让 个 符号 发 出 概率 。 所 以 每 个 粒子 是 维 数 为 9m+3+ 
(2m+D|4| 的 一 个 实数 编码 串 。 所 以 DNA 模型 的 参数 个 数 是 
171p+7， 和 蛋白 质 模 型 的 参数 个 数 是 49m + 23 。 根 据 转移 概率 和 符号 
发 出 概率 的 性 质 , 在 对 粒子 对 应 的 HMM 模型 进行 评价 前 , 需要 先 
对 HMM 中 的 状态 转移 概率 和 符号 发 出 概率 进行 归 一 化 ， 以 满足 
3m +1 个 转移 概率 归 一 化 约束 方程 和 21m+1 个 符号 发 出 概率 归 一 
化 方程 。 

根据 粒子 群 算 法 训练 的 结 琳 ， 得 到 全 局 最 优 的 粒子 对 应 的 
HMM， 接 下 来 用 此 模型 使 用 Viterbi 算法 进行 序列 的 比 对 ， 得 到 最 


优 的 比 对 结果 ， 并 用 基于 SP(sum of pairs) 打 分 系统 的 目标 函数 评估 
比 对 的 结果 。 


在 整个 算法 的 过 程 中 ， 根 据 谢 面 HMM 的 拓扑 结构 ， 所 使 用 
的 转移 概率 的 形式 如 表 6.1 TZR. 
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X 6.1 转移 概率 


Transition Transition Transition 
M; > Mi, D, 一 > Mi, 
M; — fai D, = fai 
M, H4 70 D, 一 rj i 


算法 流程 如 图 6.2 所 示 。 
start 
Initialize Population (P) 


Get training Set 


Copy Population P—P* 


Normalize—P* 


r 一 一 一 一 一 一 一 一 疏 一 一 一 一 一 一 一 一 一 一 一 3 
particle swarm optimization 

i 
Training HMM 


| 
| 
| 
| 
| 
| Caluculate object function parameters 
| 
| 
| 
| 


Updating Population (P) 


lo = = ms ms Bs o o HE = å å å M å ë M ‘e M ‘M 


| Terminal Condition 
Yes 
End 


图 6.2 ”基于 剖面 HMM 和 PSO 优化 算法 的 多 序列 比 对 的 算法 流程 
6.3.1 融合 多 样 性 的 QPSO 算法 

1. 多 样 性 的 基本 思想 

众所周知 ， 对 于 多 峰 函 数 的 优化 问题 ，PSO 算法 和 其 他 进化 得 
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法 迪 a 到 的 最 大 问题 束 古 早 邵 ,早熟 问题 会 村 伊 拭 法 的 收敛 性 能 下 降 和 
次 优 解 的 产生 。 在 PSO 中 ， 由 于 粒子 群 的 聚集 性 ， 粒 子 间 会 快速 地 
人 交换 信息 ， 这 样 使 得 群体 的 多 梓 性 很 快 降低 ， 一 旦 PSO 算法 洛 入 局 
— BLABXEDEHHOK. TOEPCT BEI) LEA T EE o 
QPSO 算法 是 全 局 收敛 算法 ， 粒 子 间 的 等 竺 效应 使 算法 的 全 局 搜索 
能 力 大 大 提高 。 但 是 对 于 复 琳 问题， 早熟 问题 也 是 难以 避 倪 的 ， 这 
同样 也 是 由 于 粒子 群 的 聚集 性 和 收敛 导致 多 样 性 的 降低 引起 的 。 
2002 Œ, Ursem 拓 出 了 一 个 多 样 性 引导 的 进化 拭 法 (diversity- 
guided evolutionary algorithm，DGEA)。 访 方法 是 基于 十 进 制 跟 传 算 
法 的 。 鼻 法 中 使 用 了 使 多 样 性 减 小 的 鼻 了 于 一 一 选择 和 人 交叉 ， 以 及 使 
多 样 性 增加 的 鼻子 一 一 变 开 。 算 法 以 个 体 到 中 心 点 的 平均 距离 度量 
多 柱 性 。 根 据 多 样 性 的 大 小 ， 使 群体 在 多 柱 性 减 小 和 多 样 性 增加 这 
两 个 模式 中 切换 ， 使 算法 能 够 持久 地 进行 搜索 ， 百 到 有 友 现 最 优 解 。 
实验 表明 ，DGEA 算法 在 求解 多 峰 函 数 优 化 问题 时 性 能 非 钟 好 。 
同样 在 2002 年 , Riget 等 在 PSO 中 引入 了 Ursem 控制 群体 多 样 
性 的 思想 , 提出 了 吸引 一 排斥 粒子 和 群 算法 (attraction-repulsion Particle 
swarm optimization, ARPSO). ARPSO 算法 通过 控制 粒子 群 的 多 样 
性 ， 使 算法 在 全 局 搜索 和 局 部 勘探 册 个 模式 之 间 进 行 切 换 。 这 册 种 
模式 对 应 了 册 个 阶段 : 吸引 和 排斥 。 其 中 吸引 束 古 收敛 阶段 ， 这 与 
普通 的 PSO RIRKA WIE. MHR MERD EAT AA E, 
离 p; Ro REEM T EIEE AI KATTTA E EAE ERSTER] H H o 


2. 多 梓 性 的 度量 


5" Ursem 和 Riget 的 司 友 , 在 QPSO 算法 中 引入 多 样 性 控制 的 方 

法 。 粒 子 群 的 多 样 性 也 采用 粒子 到 中 心 点 的 平均 欧 几 里 的 距离 来 度 

量 。 然 而 在 PSO 和 QPSO 中 ， 存 在 两 个 群体 ， 即 由 粒子 的 当前 位 置 
组 成 的 群体 和 由 粒子 的 个 体 最 好 位 置 组 成 的 群体 ， 它 们 分 别 表示 为 

S, -2(X,,X,,, X,,) (6.16) 

SO ULBE el (6.17) 
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相应 的 ，QPSO 或 PSO 就 由 两 种 形式 的 多 样 性 度量 ， 即 


l eG Nx pouce o4 € 
dversiy(Sx) =T 可 和 2,6; -Xy. X, ar 2s (6.18) 


Il 
— 
Sau 
儿 


diversity(S,) = 


M. x42 a 
式 中 ，|4| 是 搜索 空 - 问 最 长 对 角 线 的 长 度 ， yep M 
是 粒子 群 的 规模 。 


3. 多 梓 性 控制 的 QPSO 算法 


算法 的 基本 思想 : QPSO 算法 在 搜索 开始 时 ， 由 于 粒子 和 群 的 初 
始 化 ， 多 样 性 相对 比较 高 。 在 随后 的 搜索 过 程 中 ， 由 于 粒子 的 逐渐 
收 你 ， 和 群体 的 多 样 性 不 断 下 降 ， 结 果 是 算法 的 局 部 搜索 能 力 不 断 地 
加 强 ， 而 全 局 搜索 能 力 不 断 减 罚 。 在 搜索 的 早期 和 中 期 ， 多 样 性 的 
减 小 对 于 粒子 群 的 搜索 效率 的 提高 是 必需 的 。 然 而 ， 到 了 搜索 的 后 
ui 由 于 粒子 都 聚集 到 一 个 相对 较 小 的 区 间 ， 这 时 粒子 群 的 多 样 性 

已经 很 低 ， 全 局 搜索 能 力 变 得 很 弱 ， 进 行 大 范围 搜索 的 可 能 性 已 经 
很 小 。 此 时 ， 如 果 全 局 最 好 位 置 (gbesb 位 于 局 部 最 优 解 或 次 优 解 ， 
算法 束 会 发 生 早熟 现象 。 

为 了 能 有 效 地 避免 早熟 现象 ， 提 高 QPSO 算法 的 性 能 ， 在 本 部 
分 和 下 一 部 分 提出 了 多 样 性 控制 的 QPSO 算法 (diversity-controlled 
QPSO，DCQPSO) 和 多 样 性 引导 的 QPSO 算法 (diversity-guided QPSO, 
DGQPSO)， 且 它们 与 Ursem 和 Riget 的 工作 不 同 ， 在 这 两 个 算法 中 
只 对 多 样 性 设置 下 限 dow。 这 里 首先 讨论 DCQPSO 算法 。 

在 DCQPSO 算法 中 ， 使 用 多 梓 性 测度 diversity(S ) 对 算法 的 搜 
索 进 行 引导 。 在 粒子 群 初始 化 后 ， 进 入 收敛 状态 。 这 时 收 绾 一 扩张 
系数 从 1.0 到 0.5 线性 地 减 小， 

æ — (1.0—0.5)x (t... —f)/t,.. — 0.5 (6.20) 


AU, imax XA CBAR A UH ACRI t jE RAR ORC 
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这 种 参数 控制 方法 与 QPSO 算法 相同 。 在 收敛 过 程 中 ， 一 旦 多 
样 性 diversity(S,) 小 于 预 完 设 定 的 下 限 diss EMT EEA R BOCA 
态 ， 这 是 多 样 性 暂时 性 地 增加 ， 直 到 大 于 qlow。 

有 了 两 种 方法 使 粒子 进入 发 散 状 态 。 一 种 是 通过 控制 参数 。 由 第 
3 章 的 粒子 收敛 分 析 可 以 知道 ， 当 w <1.781 时， 粒子 能 收敛 到 局 部 
吸引 子 p; 当 w>1.781 时 ， 粒 子 友 杉 。 因 此 ， 可 以 考虑 当 多 样 性 降 
到 dow 以 下 时 ， 将 设置 为 茶 个 什 ， 粒 子 群 吏 会 进入 友 辟 状态 。 而 当 
粒子 群 的 多 样 性 达到 diow 以 上 时 ， 粒 子 草 狐 进 入 收 合 状 态 ， 这 时 的 
值 仍旧 根据 变化 。 将 这 种 DCQPSO 称 为 DCQPSO1。 

态 一 种 增加 多 样 性 的 方法 是 初始 化 平均 最 好 位 置 C。 当 粒子 群 
的 多 样 性 较 小 的 时 候 ， 粒 子 的 当前 位 置 和 C 的 距离 很 小 ， 进 化 方程 
中 的 工 变 得 很 小 ， 这 样 粒 子 远离 吸引 子 p; 的 概率 也 非常 小 。 对 C 进 
行 初 始 化 ， 相 当 于 对 其 实施 变 开 ， 使 之 远离 粒子 群 ， 这 样 C 与 粒子 
的 当前 位 置 拉 开 ， 粒 子 能 远离 疡 点 ， 于 是 多 梓 性 吏 增 加 。 使 用 充 方 
法 的 DCQPSO 称 为 DCQPSO2. 

DCQPSO 算法 的 访 程 如 下 : 

(1) 初始 化 粒子 群 。 

(2) 当 和 迭代 次 数 小 于 上 _ 时， 执行 以 下 步骤 。 

(3) 计算 粒子 群 的 平均 最 好 位 置 C. 

(4) 计算 粒子 群 的 多 梓 性 diversity (S, ) o 

(5) 计算 收缩 一 扩张 系数 : gg=(1.0 一 0.5)x(t 一 7)/t —0.5 (收敛 
模式 )。 

(6) 判断 diversiy(S z) ,如 果 小 于 dows 则 设置 w = o (DCQPSOD): 
或 者 ， 初 始 化 平均 最 好 位 置 C(DCQPSODORZ BUS). 

(7) 对 每 个 粒子 按照 QPSO 进化 方程 进行 位 置 更 新 。 

(8) 返回 步 又 (2)。 


4. 多 样 性 引导 的 QPSO 算法 


算法 的 基本 思想 : 对 于 表面 的 DCQPSO , 使 用 并 控制 diversity(S - 
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来 引导 QPSO 的 搜索 。 如 未 在 算法 中 控制 giversib(9。) 来 引导 粒子 
群 的 搜索 ， 性 能 很 和 震 ， 这 主要 是 由 DCQPSO 中 使 粒子 发 各 的 方法 所 
引起 的 。 这 里 使 用 态 外 一 种 增加 多 样 性 的 方法， 这 种 方法 使 丙种 多 
样 性 度量 都 可 用 来 引导 QPSO WRR. Eie, SMT ENE EE 
diversity(S , ) &X diversity(S ,) 降低 到 diow 以 下 时 ， 对 粒子 群 中 处 于 全 
局 最 好 位 站 的 粒子 进行 如 下 的 变 卉 操作 : 

P ,=P ,+7y.|Al.e, e~N(0,D), (j=1,2,…,N) (6.21) 


AP, e 是 服从 标准 正 态 分 布 的 随机 数 ;，y 是 参数 。 

当 变 异 操 作 施 加 到 全 局 最 好 的 粒子 时 ， 会 使 粒子 个 体 最 好 位 置 
到 平均 最 好 位 置 C 的 平均 距离 增加 ， 从 而 使 多 样 性 diversity(S,) 1% 
加 。 同 时 ， 由 于 全 局 最 好 位 置 的 变动 会 使 C 偏离 目前 的 位 置 ， 粒 
子 当 前 位 置 与 C 的 距离 也 会 扩大 ， 这 不 导 人 臻 粒子 有 一 定 程 度 的 友 
圾 (因为 立 子 概 座 分布 的 方 堪 变 大 )， 从 而 使 qdiversity(S,) 增 加 。 
此 ,使 用 变异 方法 可 以 同时 增加 两 种 多 样 性 。 针 对 这 种 方法 ， 提 出 
了 两 种 多 样 性 引导 的 QPSO 算法 (DGQPSO)， 一 种 使 用 多 样 性 
diversity(S,.) I| FRIAR, WRN DGQPSOx; 万 外 一 种 使 用 多 梓 性 
diversity(S,) ， 称 为 DGQPSOp。DGQPSO 算法 的 流程 如 下 : 

(1) 初始 化 粒子 群 。 

(D 当 和 迭代 次 数 小 于 大 时， 执行 以 下 步骤 。 

(3) 计算 粒子 群 的 平均 最 好 位 置 Ca 

(4) 计算 粒子 群 的 多 样 性 diversi(Sy) ( DGQPSO;) 或 diversity(Sp) 
(DGQPSO,). 

(5) 计算 收缩 一 扩张 系数 : w=(1.0-0.3)x(_ —0)/t,.. —0.5 (收敛 
模式 )。 

(6) 判断 diversity(S,) &X diversity(S,) > WRF diow, WIJ EJ 
Ig ltr T Scot 3 (6.2 DISJAE 7e CIBUS X) o 

(7) MATET IRN QPSO 进化 方程 进行 位 置 更 新 。 

(8) 返回 步 又 (2)。 


178 


, $65 HTAAAgAXE&EAXOPSOSCESE mz) WA) 


6.3.2 评估 训练 算法 的 质量 


在 粒子 群 优化 算法 中 , 需要 评估 每 个 粒子 所 代表 的 模型 的 质量 ， 
f FH REV f ER AL 
Log odds(O,A)- - LS leg; F(6, 14) 
NA | 
式 中 ，O ={0O,0,,…,Ow|} 是 给 定 的 每 比 对 序列 的 集合 ， 序列 的 个 数 
AM 个 ; 有 是 序列 Cs 的 长 度 的 值 越 大 ， 说 明 使 用 量子 粒子 群 优化 
算法 训练 得 到 的 HMM TEWBE, PEA HFA EEA N] SE 
性 者 较 好 ， 可 以 使 用 网 前 鼻 法 计算 Log odds IR. 


6.3.3 模型 的 联 配 问 题 


(6.22) 


联 配 问题 可 归结 为 给 定 可 观察 符号 序列 O = oo, ---o, 和 已 知 的 
隐 马 尔 可 夫 模 型 14= (x, 4A,B) ， 在 最 佳 意 义 上 确定 一 条 状态 序列 
QO -qq,-q. 的 问题 。 联 配 问 题 是 力图 揭露 出 模型 中 隐藏 着 的 部 
分 , 即 找 出 最 好 的 状态 序列 。 这 里 使 用 Viterbi 算法 进行 序列 的 联 配 。 
定义 Viterbi AP tg: 


Ô= max P(qq,---4,.d, 21,0,0, 0, | A) (6.23) 
AP, A 是 时 刻 ! 时 治 一 条 路 径 g9 9 Hq =i， 产 生出 可 观 


ECT S TT 7 o, ---o, 的 最 大 概率 。 
ô (i) 可 通过 递归 法 进行 计算 ， 即 


5.() = max[6.1(7)a, Jb o.) (6.24) 
对 于 缺失 状态 由 于 没有 字符 生成 ， 所 以 有 
56()= max [ó, ,()4;] (6.25) 


为 了 实际 找到 最 佳 状态 , Tia de ER ea (06.25 E CHI Z2 29058 15 E] 
IUZROS REA (IL PH). KE EE ET XE X. o G) REWE t ATAS 
179 


E 中 篇 “多 序列 比 对 模拟 篇 . 


; 最 可 能 是 由 1-1 时 刻 的 哪个 状态 转移 而 来 。 那么 ， 寻 找 最 佳 状态 序 
Fi O 的 完整 过 程 可 陈述 如 下 ; 
(D 初始 化 
0(i)=Axb(0), ISISN; $(7)=0,1i<N (6.26) 
D 递归 计算 


5O=max|90)o |b(on). 2€rzT. 1X iN (6.27) 
l 


l< <N 


6)-arg max | 8 Da, |> 2<1<7T, I j«N (6.28) 
(3) PWr 
P = max [& 0] (629) 
qr = arg max [8&0] (6.30) 
(4) 路 径 ( 最 佳 状 态 序 列 ) 回 淹 
4; =ba (da) t5T-LT -25-1 (6.31) 


TE S RIT EDS AYI]: 

O(1)—AGQYHECK; 

O(2)——AFGPWERKYV; 

O(3)——ASWIELKV. 

Ta HG. Pi 9 PA Z3 nT ELS SUPE ECOSE IR] £s RE: 

(1) 根据 Viterbi 算法 和 图 6.1 所 示 的 HMM 拓扑 结构 找 出 每 条 
序列 所 对 应 的 状态 序列 ， 如 图 6.3 所 示 ， 每 条 序列 的 氨基 酸 碱 基 对 
应 一 个 匹配 状态 或 一 个 插入 状态 。 

(2) 由 图 6.3 生成 的 状态 序列 ， 可 以 进行 军 位 字符 “一 ”的 插 
入 操作 ， 如 图 6.4 所 示 。 上 所 有 的 序列 中 与 匹配 状态 M 相对 应 的 氨基 
酸 碱 基 是 比 对 的 ， 这 些 氨 基 酸 碱 基 位 于 同一 列 ; 与 插入 状态 到 相对 
应 的 氨基 酸 碱 基 位 于 M. SED.) MED, BU. 

由 步骤 (1) 和 步骤 (2)， 得 到 联 配 后 的 序列 ， 如 图 6.5 所 示 。 
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OD |M |m 


Q"C1) Mi Da D; [ls I5 Is Mis Mis I; Il Ds D» 
Di A x x 8 Q Y H E C K 

OD Mi M Di W4 I; Is D; Iul I; Wi; Ne Ni 
O2) A F — G P = £ K Y V 


QG M M b D D L D M 1 M D 
OQ A S W — — I — E 


«£g 


o (1) 

A— — G QY H EC EK 一 — 
0 (2) 

à F— G PW— ERE TZ y 

0 (3) 

à SW — I — ELE-— WW 


图 6.5” 联 配 后 的 序列 
6.3.4 评估 比 对 序列 的 质量 


在 利用 Viterbi 算法 获得 的 路 径 进行 比 对 后 ,需要 通过 基于 SOP 
(Sum-of-pairs) 打 分 系统 的 目标 汞 数 对 比 对 结 条 进行 评估 。 
(1) 如 果 没 有 参考 比 对 的 结果 ， 使 用 下 面 标准 的 sum-of-pairs 打 
分 函数 : 
SOP= y Y D(L,,l;) (6.32) 
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P, LGH HIFI]: D 为 距离 矩阵 。 

为 了 如 免 在 比 对 过 程 中 衬 位 的 积 上 府 ， 从 SOP 分 数 中 推 狐 出 仿 
射 几 何 学 的 衬 位 代价 ， 对 于 比 对 结果 中 一 条 序列 的 空位 代价 按照 
下 和 面 的 公式 进行 计算 : 

Gap cost = GOP + nX GEP (6.33) 

A, GOP RRAN TME EWS; GEP 表示 对 于 扩展 
EMRS: 到 为 一 条 序列 中 空位 的 个 数 。 

对 于 已 比 对 的 每 条 序列 的 空位 都 要 计算 相应 的 空位 代价 。 多 序 
列 比 对 结 来 的 SOP 的 分 信 减 去 空位 代价 的 总 和 ， 即 为 SOP IME- 

D 如 未 有 参考 比 对 ， 使 用 下 和 面 的 SOP 打分 图 效 SPS: 

wA N 个 比 对 测试 序列 ， 构 成 M B biu i fiu A 
41,4,,…, A 。 对 每 一 对 残 基 4, 和 A,; ENRE ppo UR A, 和 
A, 住 比 对 的 参考 结 琳 中 也 位 于 同一 列 ， 则 pj —1, fil p, =0。 
定义 变量 5 为 第 i 栏 的 得 分 ， 则 有 


N N 
9, 一 » 2 Pa (6.34) 
j=l, j#k k-l 
id SPS 为 最 终 比 对 结果 的 得 分 ， 则 
| M 
Ys 
SPS - (6.35) 
> 9, 
i=l 


式 中 ，M 是 参考 比 对 结果 中 的 柱 数 ;5 EDA E] a R E i A 
的 得 分 。 
用 访 函 数 进行 评价 时 ， 比 对 结 末 的 得 分 越 多 ， 说 明 比 对 的 结 末 
图 6.6 分 别 给 出 了 核酸 序列 High short 在 6 种 算法 CW, BW, 
PSO、QPSO、DMQPSO、DGQPSO 下 得 到 的 序列 比 对 结果 ; 图 67 
分 别 给 出 了 和 蛋白 质 序列 A51c 在 6 种 算法 CW、BW、PSO、QPSO、 
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DMQPSO、DGQPSO 下 得 到 的 序列 比 对 结果 。 从 图 中 可 以 看 出 ， 
DGQPSO 算法 找到 的 相似 性 区 域 最 多 。 


SEQ5 CTGGCATTCGAGTCATTTTCAGCGTTTTCGGGCCTCGATCGGCCGATGGGCGGGCGACTA 
SEQgB | | | O ---------------------------------- CGGCTCGAATGCTTGGAGAAAGATCA 
SEGI  — — 1 1 -——------------ GAGTAAATATATCGTAATATAAATTGAGCGCT------ AATTCA 
ron *o* *" 
SEQS ÀGTATTTACAATTCTGCACCAGACCAACCA-AATGCAGCATTCACTGTGGCCAATACTGA 
SEQ9 TATCTTTAACAAGCTGTACTCTACTGGGAACAARAGGAGCGCCGGACGTGTCTAATTCATG 
SEQ12 GGTICCTCTCTELATTATGGCCGGCCGCGTAE----- ---- GTTACTCTTATGTGACGGATG 
过 * * * * 而 $ $ 
SEQS ÀCATAAGTAATTGTCGTGACGGAAGGCTGCGAACGTCTCAGGGATAGCAACTTCAGCGCG 
SEQ9 ÀCCCAGATGATGCTC--------------------------------------------- 
SEQ12 GCAGGCTGGTACCTCGAAACGGGTACTACTGAGTGTACTCGAAATAACATGGTCAGGAGC 
* "c 
SEO5 TTCTCTCCCCATCCAGGTTAAGAACTCAGCAGACGGGTCGTTGGAACAGGATCTACGTGG 
SEQ9 ----------------------------------------------CGAGCTATGCGGAG 
SEQ12 KAAGACTCTTCTTTCTTATCKACTTTCACC----------------CTGTCCCCGOCGCOG 
* "vt F 
SEQ5 ACTAAACAACGAACAATGAGCGACGTAGCGACTCCCGTATCTCAAACTCATGGAGTTGGT 
SEQO ATTARATACTGAR---------------------------------- TCAACGAGGTCAÀA 
SEQ12 Re CCGATGGGATAGT 
"c ^ Dj * oW * 
SEQS GACAACGAGTTTATGCGTCTATAACGCGGTTGTGGGCTCGGTAAGCGATACGTGGATAGC 
SEQO GLO TT oce ATATC 
SEQ12 CCCGAGGAGTTGGTTACACGTTACC------------ 一 一 一 一 一 一 一 ---GTTAATTAGGAGT 
"o nh Y Ñ ri * F r3 
SEQ5 GTGGATCGCGACGACAGTTTGTTGTGCGCTCGAACGAACAACTCGTGATACCGGTATGCT 
SEQO GCAGATTACATCCA- usce ee AACTTGTAACACCGGTG- ACT 
SEQ12 ATTAATCCAACCCACAARATAGAAGTGCGTGTACATGG--CATTAGTTATÀGGGG------ 
++ * cw * +4 nt x X *ck 
SEQ5 CAGCTACAGACACCTGTTATCGACATGTATAAAAGGAGGTCAAAACCCAGTTCAGCCACG 
SEQ9 GAGCTTAA--------------2.-2.-2.-2-2.-2.-2-2.-2-2-2.-2-2------ CÀGTATCCCGCGCATTTATG 
ED NM rc EC LL GAACATTCGGCACATTGGAÀA 
十 tn + 而 FE 
SEQ5 GCGTAATCATTAATATG---TATTCAÀGATGCCGGGTCTAAAAGACATGACACTGTAGGAC 
SEQ9 ÀC------- TTGCTAGG---CGCGCGCGTGATAGTAATAATTTACACGAGCCAGTAG--- 
SEQ12 CTGTAACCGTTACTTAGTCATGTCCGCGGGCCCATATCTAGATGTGGGC----------- 
wt o * F * * Ei * 
SEQ5 GAAÀAGGTAAGAAAGGCTACCTACCAATTCGATTGTGGCCGGAATACAGGGTAGAACGGCG 
HEUS. we uie lA n ee dmi e ee Ael ee 
SEQO12 | 11 ------------------------------------------------------------ 
SEO5 TTTÀÀ 
SEQgB | ——  ----- 
SEQ12 | |  ----- 


图 6. 


CON 


(a BW FIA PHP LES S A 


核酸 厅 列 High short 在 五 种 算法 CW、BW、PSO、QPSO、 


DMQPSO、DGQPSO 下 得 到 的 序列 比 对 结果 


183 


I 中 篇 多 序列 比 对 模拟 篇 


SEQ5 CTGGCATTCGAGTCATTTTCAGCGTTTTCGGGCCTCGATCGGCCGATGGGCGGGCGACTA 
SEQ9 ------------------------------------------------------------ 
SEQ12 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
SEQ5 AGTATTTACAATTCTGCACCAGACCAACCARATGCAGCATTCACTGTGGCCAATACTGAA 
SEQg | |  ------------------------------------------------------------ 
SEQ12 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
SEQ5 CATAAGTAATTGTCGTGACGGAAGGCTGCGAACGTCTCAGGGATAGCAACTTCAGCGCGT 
BEQU O ----------------------2-----------------2.-------------------4 
SEQi2 | ----------------------------- GAGTAAATATATCGTAATATAAATTGAGCGC 
SEQS TCTCTCCCCATCCAGGTTAAGAACTCAGCAGACGGGTCGTTGGAACAGGATCTACGTGGA 
3EQ9 --—----------2----2----------2------------- C--GGCTCGAATGCT-TGGA- 
SEQ12 TAAATTCAGGTCCTCTCTAARATTATGGCCGGCCGCGTAGT--TACTCTTATGTGACGGAT 
*" 再 
SEO5 CTAARACAACGAACAATGAGCGACGTAGCGACTCCCGTATCTCAAACTCATGGAGTTGGTG 
SEQ9 -GAAAGATCATATCTTTAA-CAAGCTGTACTC----TA-CTGGGAACAAAGGAGCGCCGG 
SEQ12 GGCAGGCTGGTACCTCGAAACGGGTACTACTGAGTGTA-CTCGAARATAACATGGTCAGGA 
* * * * ror FEF * * * 
SEO5 AÀCAACGAGT-TTATGCGTCTATAACGCGGTTGTGGGCTCGGTAAGCGATACGTGGATAGC 
3EQ9 ACGT-GTCTAATTCATGACCCAGATGATGCTCCGAGCTATGCGGAGATTARATA--CTGÀ 
SEQ12 GCAARAGACTCTTCTTTCTTATCAACTTTCACCCTGTCCCCGCGCGGTTTAGGCAGCCCGA 
* * * * * * "n *c 而 
SEQ5 GTGGATCGCGACGACAGTTTG-TTGTGCGCTCGAACGAACAACTCGTGATACCGGTATGC 
SEQ9 ATCAACGAGGTCAAGAGATGGGTT-- -TGATCCCGCTTCAGCATATCGCAGATTACATCC 
SEQ12 TGGGATAGTCCCGAGGAGTTGGTTACACGTTACCGTTAARTTAGGAGTATTAATCCAACCC 
* * F + E FF 过 F * * 
SEQ5 TCAGCTACAGACACCTGTTATCGACATGTATAAARAGGAGGTCAAAACCCAGTTCAGCCAC 
sEQ9 À-AACTTGTAàCACCGGTGACTGAGCTTAACAGTATCCCG--CGCATTTATGACTTGCTÀ 
SEQ12 ÀCAARTAGAAGTGCGTGTACATGGCATTAGTTATAGGGGG--AÀACATTCGGCACATTGGÀ 
* Eg * "wr Ey * Lj Eq Er * 
SEO5 GGCGTAATCATTAATATGTATTCAGATGCCGGGTCTAAAAGACATGACACTGTAGGACGA 
SEQO GGCGCGCGCGTGARTAÀG---TAATARTTITACACGAGCCAGTAG-—- ——————————————- 
SEQ12 ACTGTAACCGTTACT---TAGTCATGTCCGCGGGCCCATATCTAGATGTGGGC------- 
* + cr S wh wc F t 3 + + * 
SEO5 ÀhÀAGGTAAGAAAGGCTACCTACCAATTCGATTGTGGCCGGAATACAGGGTAGAACGGCGTT 
jo] E ———————— 
和 
SEQ5 TÀÀ 
SEQ9 --- 
SEQ12 — 


(b CW 算法 下 的 序列 比 对 结果 


图 6.6 核酸 序列 High short 在 五 种 算法 CW、BW、PSO、QPSO、 
DMQPSO、DGQPSO 下 得 到 的 序列 比 对 结果 ( 续 ) 
184 


SEQ CTGGCATTCGAGTCATTTTCAGCGTTTTCGGGCCTCGATCGGCCGATGGGCGGGCGACTA 
SEQ9 -----------.-----------------------CGGCTCGAATGCTTGGAGAAAGATCA 
SE GAGTAAATATATCGTAATATAAATTGAGCGCT------ AAATTCA 
* ck * * * 
SEQ5 AGTATTTACAATTCTGCACCAGACCAACCAAATGCAGCATTCACTGTGGCCAATACTGAA 
SEQ TATCTITAACAAGCTGTAC-------------------- TCTACTGGGAACA-------- 
SEQ12 GGTCCTCTCTAAATTATGGCCGGCCGCGTAGTTAC- ---TCTTATGTGACGG- ------- 
机 $ ^ * 而 ^W od 
SEQ CATAAGTAATTGTCGTGACGGAAGGCTGCGAACGTCTCAGGGATAGCAACTTCAGCGCGT 
SE09 ——— 1 ---------..--l---- AAGGAGCGCCGGACGTGTCTAA--------------------- 
SF -=------ ATGGCAGGCTG---GTACCTCG-AAACGGGTACTACTGAGTGT 
* kk tt $ +t 
SEQ5 TCTCTCCCCATCCAGGTTAAGAACTCAGCAGACGGGTCGTTGGAACAGGATCT------- 
SEQ9 ^ ---------------- TTCATGACCCAGATGATGCTCCG-------- ÀGCTAT------- 
SEQ12 ACTCGAAATAACATGGTCAGGAGC---AAAGACTCTTCTTTCTTATCAACTTTCACCCTG 
^ 而 T "T *T $ 
SEQ5 0 ---- ACGTGGACTAAACAACGAACAATGAGCGACGTAGCGACTCCCGTATCTCAAACTC 
SEQ9g ^ 11 ----- GCGGAGATTAAATACTGAAT----------------------------------- 
SEQ12 TEECCGCOCOSTTTACOCEBOG L.L.V. ---lV.-224---- 
AA E dn 而 
SEQ5 ATGGAGTTGGTGACAACGAG---TTTATGCGTCTATAACGCGGTTGTGGGCTCGGTAAGC 
SEQ9 ^  ------------- CAACGAG---GTCAAGAG-------------- ATGGGTTTGATCC-C 
SEQl2 ^ ------------- CGATGGGATAGTCCCGAG---------------- GAGTTGGTTACAC 
+ t ow cd * 而 而 uk wx 4d * rrj 
SEQ5 GATACGTGGATAGCGTGGATCGCGACGACAGTTTGTTGTGCGCTCGAACGAACAACTCGT 
SEQ BCTTC-AGCATRTCGCAGATTACATCCA- -------2--4----a Ls ----- AACTTGT 
SEQ12 DITE eene CGTTAATTAGGAGTÀA----------- TTAATCCAACCCACAAATAGA 
uo i Ww "d o * TA ow X 
3EQ5 GATACCGGTATGCTCAGCTACAGACACCTGTTATCGACATGTATAAAAGGAGGTCAAAAC 
SEQ9 AACACCGGTGACT----------------------GAGCTTAAC----------- AGTAT 
SEQ12 ABTBCGTGTACAT---------------------- GGCATTAGTTATAGGGGG--AACAT 
而 ++ Lj * 而 下 
SEQS CCAGTTCAGCCACGGCGTAATCATTAATATGTATTCAGATGCCGGGTCTAAAAGACATGA 
3EQ8 CCCGCGCATTTATGAC-------TTGCTAGGCGCGCGCGTGATAGTAATAATTTACACGA 
SEQ12 TCGGCACATTGGAACTGTAACCGTTACTTÀG- - ------------- --TCATGTCCGCGG 
T 而 rand tA 二 A w t oOo * 
SEQS CACTGTAGGACGAAAGGTAAGAAAGGCTACCTACCAATTCGATTGTGGCCGGAATACAGG 
SEQ8 GCCAGTAG-----------------------.--.-----.--.----.---- -------- 
SEQ12 EEC TCTAGATGTGGGC---------- 
4 AF 
SEQS5 GTAGAACGGCGTTTAA 
SEQ8 /— 7 ---------------- 
SEQ12 ---------------- 


(o) PSO 算法 下 的 厅 列 比 对 结果 


， 第 6 章 基于 隐 马 尔 可 夫 模 型 和 OPSO 算法 的 多 序列 比 对 到 


图 6.6 核酸 厅 列 High short 在 五 种 算法 CW、BW、PSO、QPSO、 
DMQPSO、DGQPSO 下 得 到 的 序列 比 对 结果 ( 续 ) 
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SEGS 
aEQS 
SEQ12 


SEQS 
SEQ9 
SEQ12 


SEQS 
SEQ9 
aEQIZ 


SEQ5 
akQs 
SEQIZ 


SEQS 
SEQ9S 
DEQ 


SEQS 
SEQ9S 
EWl12 


SEQS 
SEQO 
SEQ12 


SEQ5 
aEQa23 
SEQ1z2 


aEQ5 
EQS 
人 EDl1z 


SEQS 
SEQO9O 
sEOQIZ 


SEQS 
SEQO 
aEQIZz 


I 中 篇 多 序列 比 对 模拟 篇 


CTGGCATTCGAGTCATTTTCAGCGTTTTCGGGCCTCGATCGGCCGATGGGCGGUCOGACT À 


o e ——————— BÓ CTCGAATGCTTGGAGAAAGATCA 
77 (€ TAAATATATCGTAATATAAATTGAGCGCT------ ÀARATTCA 
* E F E F * 


AGTATTTACAATTCTGCACCAGACCAACCA-AATGCAGCATTCACTGTGGCCAATACTGA 
TATCTTTAACAAGCTGTACTCTACTGGGAAÀCAAAGGAGCGCCGGACGTGTCTAATTCATG 


GGTCCTCTCTAARATTATGGCCGGCCGCGTA--——-—--—---GTTACTCTTATGTGACGGATG 
to + * * * * * * 
ACATAAGTAATTGTCGTG----- ACGGAAGGCTGCGAACGTCTCAGGGATAGCAACTTCA 
ACCCAGATGATGCTCCGAGCTATGCGGAGATTAAATA--—--—— CTGAATCAACGAGGTCA 
GCAGGCTGGTACCTCGAA-—--—— ACGGGTACTACTGAGTGTACTCGAAATAACATGGTCA 
* Loro WWW Gg * "ow us 


GCGCGTTCTCTCCCCATCCAGGTTAAGAACTCAGCAGACGGGTCGTTGGAACAGGATCTÀ 


—— SERI Ue Te pe e e AP E 
I: GGAGCAAAGACTC 
TA r3 
CGTGGACTAAACAA-------- CGAACAATGAGCGACGTAGCGACTCCCGTATCTCAAAC 
OCC pie ies ————— M 
ITCTTTCTTATCAACTTICACCCTGTCCCCGCGCGGTTTAGGCAGCCCGATGGGATAGTC 
"iow ng 


TCATGGAGTTGGTGACAACGAGTTTATGCGTCTATAACGCGGTTGTGGGCTCGGTAAGCU 


——— PETCGCAGATTECETEC RTTGTE 

--------TTACCGTTAATTAGGAGTAT----------- TÀATCCAACCCACAAATAGÀAÀA 
tt ck t+ * tt d F 

ATACCGGTAT----GCTCAGCTACAGACACCTGTTATCGACATGTATAAAAGGAGGTCAÀA 

ACACCGGTGACTGAGCTTAAC------------------------------------- ÀG 

GTGCGTGTACATGGCARTTAUGTTATÀG- ———————----- GGGGAA 
* wk * xc * 


AACCCAGTTCAGCCACGGOCGTAATCATTAATATGTATTCAGATGOCCGGGTCTALAAGACA 


TATCCCGCGCATTTATGAC----—-—— TIGCTAÀGGCGCGCGCGTGATAGTAATAATTTACA 
CATTCGGCACATTGGAACTGTAACCGTTACT-—-—-—-------------- TAGTCATGTCCG 
w * wu AA -* n * "s * *" 


TGACACTGTAGGACGAAAGGTAAGAARAGGCTACCTACCAATTCGATTGTGGCCGGAATAC 
CGAGCCAGTAG-----------------------------2-------------------- 
CGGGCCCATATCTAGA-------------------------------------------- 


Lj T "cw 


AGGGTAGAACGGCGTTTÀAÀA 


(d QPSO 算法 下 的 序列 比 对 结 未 


图 6.6 核酸 序列 High short 在 五 种 算法 CW、BW、PSO、QPSO、 


DMQPSO、DGQPSO 下 得 到 的 序列 比 对 结 末 ( 续 ) 


SEOS 
S3EQO 
oEQlIZ 


JEGO 
SEQ9 
3EQIZ 


JaJEQ5 
ED 
SEQl2 


SEOS 
3EQO 
JEQIZ 


EW 
SEQS 
3EQIZ 


3EQ5 
JEQ9 
SEQ1iZ 


ES 
3EQO 
JEQIZ 


ENS 
EWS 
局 上 总 二 


ES 
SEQO 
oEQIZ 


SEQS 
己 卫 总 9 
oEQIZ 


SEQS 
SEQ9 
SEQIZ 


第 6 章 


CTGGCATTCGAGTCATTTICAGCGTTTTCGGGCCTCGATCGGCCGATGGGCGGGCGACT À 


C-GG--CTCGAAT----------------------- GCT------- TGG-AG------ AA 
G---------AGTAAATAT-ATCGTAATÀ-----TAAAT-------TGAGCG-----CTÀ 
* 再 Ld +t + 而 
AGTATTTACAATTCTGCACCAGACCAACCAAAT-GCA------G----CATTC-ACTGTG 
AG--AT--CATATCT-------- TTAA-CAÀ---GCT------ G----TACTCTACTG-- 
AÀà--TT--CAGGTCCTCT----- CTARATTA-TGGCCGGCCGCGTAGTTACTCTTATG-- 
* 而 Tc * n "n + rr + t ded T 
GCCAATACTGAACATAAGTAATTGTCGTGACGGAAGGCTG------ C-GAACGTCTCAGG 
-------- GGAACAÀ---------------AÀAGGAGCGCC---------GGACGTGTCT-- 
-------- TGAÀCGG---------------ATGGCAGGCTGGTACCTCGAAACGGGTAC-- 
Lauro "o wF LG "Tow * 


GAÀTAGCAACTTCAGCGCGTICTCTCCCC-ATCC-AGGTT--AÀAÀGAACTCAGCAGACGGGT 


— AATTCAT-------------G-ACCC-AGATG--ATG--CT------------ 
------ TACTGAGT-------------GTACTCGAAATAACATG--GT------------ 
*o* * tt t *o* * 


CGTTG-GAÀACAGGATCTACGTGGACTAAACAACGAACAATGAGCGACGTAGCGACTCCCG 
---CC-GÀ----GCTAÀTGCGGAGATTAAATACTGAA---TCA------------------ 
EE E i 21: CA t U E AGACTCTTC 


m "i 


TATCTCAAACTCATGGAGTTGGTGACAACGAGTTTATGCGTCTATAACGCGGTTGTGGGC 
------------2---------------------------------- ÀACGAGGTC-AAGA- 


TTTCT------ TATCAACTT----TCACCCTGTCC--—-——----— CCGCGCGGTT-TAGGC 
^i tkt * 


TCGGTAAGCGATACGTGGATAGCGTGGATCGCGACGACAGTTTGTTGTGCGCTCGAACGA 


——M GAT--G-GGTTTG------4ATCCC----------GCTTCAGCAT---AÀTCG 
À--G--CCCGAT--G-GGATAG------ TCCCGAGG--AGTTGGTTACACGTT---ACCG 
+t + 过 这 EE. * * c * * 
起 = 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 ÀÀCTCGTGATACCGGTATGCTCAGCTACAGACACCTGTT 
CAGATTA-------- CATCCAAACTTGTAACACCGGTGA-CTGAG--------------- 
TTAATTAGGAGTATTAATCCAACCCACAAATAGAAGTGC-GTGTA--------------- 
言 看 言 而 wọ 而 


ATCGACATGTATALAAAGGAGGTCAAAACCCAGTTCAGCCACGGCGTAATCATTALATATGT 


--—------------------------------------CTTAAC------AGTÀA------ 
一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 --------CAÀTGGC------ATTAGT---T 
* * oct 


ATTCAGATGCCGGGTCTAARALAGACATGACACTGTAGGACGAALAGGTAAGALAGGCTAC-C 


—I----C----CCG---CGCATTTATGACTTGCT----—-— AGGCGCGUO-—-—-GCGTGATAG 
AT-—-ÀG--G----G---GGAACATTCGGCACATTGG---—ÀACTGTAA-—-—-CCGTTAC-T 
cg T T "ow Lo cg T T "i 


TACCAATTCGATTGTG-GCCGGAATACAGGGTAGAACGGCGTTTAA 


TAATAATTT-—ACACGAGCUO-——————RÀ-———————-—-—-—-—--—-— GTÀG 
TAGTCATGT--CCGCGGGCCCA-—T-—Ah-TCTAGÀA--—--—TGTGGGC 
"c LEG "o TAF $ 


(e) DMQPSO 算法 下 的 序列 比 对 结果 


图 6.6 NET High short 在 五 种 算法 CW、BW、PSO、QPSO、 


DMQPSO、DGQPSO 下 得 到 的 厅 列 比 对 结果 ( 续 ) 


基于 隐 马 尔 可 夫 模 型 和 QPSO 算法 的 多 序列 比 对 NN 
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M 中 篇 多 序列 比 对 模拟 篇 


3EQ5 CTGGCATTCGAGTCATTTTCAGCGTTTTCGGGCCTCGATCGGCCGATGGGCGGGCGACTÀ 
3EQ9 --2-2222222222222222-22--2-2-----------D66CTCGAATGCTTGGAGAAAGATCA 
SEQl2 . ^ --------------- GAGTAAATATATCGTAATATAAATTGAGCGCT------ ÀAATTCÀ 
* * * * 而 
SEQ5 AGTATTTACAATTCTGCACCAGACCAACCAAATGCAGCATTCACTGTGGCCAATACTGAA 
3EQ9 TATCTTTAACAAGCTGTAD-------------------- TCTACTGGBAACA-------- 
SEQ12 GGTCCTCTCTAAATTATGGCCGGCCGCGTAGTTAC----TCTTATGTGACGG-------- 
而 * 而 * 而 ux 而 
3EQ5 CATAAGTAATTGTCGTGACGGAAGGCTGCGAACGTCTCAGGGATAGCAACTTCAGCGCGT 
SEQ — 111 —----------------- ÀAGGARGCGCCGGACETGTCTAA--------------------- 
TAU ATGGCAGGCTG---GTACCTCG-AAACGGGTACTACTGAGTGT 
+ tF tA * roin 
3EQ5 TCTCTCCCCATCCAGGTTAAGAACTCAGCAGACGGGTCGTTGGAACAGGATCT------- 
3EQ9 ---e2ccsc-cccccTTCATGACCCAGATGATOCTCUE- — - - -—ÀAGCTAT- --—--- 
SEQ12 ACTCGAAATAACATGGTCAGGAGC---AAAGACTCTTCTTTCTTATCAACTTTCACCCTG 
* * La Lj * $ 
SEQ5 1 ----- ACGTGGACTAAACAACGAACAATGAGCGACGTAGCGACTCCCGTATCTCAAACTC 
SEQ ===- GCGGAGATTAAATACTGAAT----------------------------------- 
SEQ12 TCCCCGCGCGGTTTAGGCAGCC-----------------.-----.--. 2-22. --.---- 
wk t wv * 
SEQ5 ATGGAGTTGGTGACAACGAG---TTTATGCGTCTATAACGCGGTTGTGGGCTCGGTAAGC 
SEOS EAOn CAACGAG---GTCAAGAG-------------- ATGGGTTTGATCC-C 
SEQlZ — O meia CGATGGGATAGTCCCGAG------ ——— GAGTTGGTTACAC 
oh ow $ 而 T * 5 Wh ow +F ^ 
SEQ5 GATACGTGGATAGCGTGGATCGCGACGACAGTTTGTTGTGCGCTCGAACGAACAACTCGT 
SEQ9 GCTTC-AGCATATCGCAGATTACATCCÀ------------------------- aaCTTGT 
3EQ12 GITAC-------- CGTTAATTAGGAGTÀ ----------- TTAATCCAACCCACAAATAGA 
T + * +t 过 家 * ho ox d 
SEQ5 GATACCGGTATGCTCAGCTACAGACACCTGTTATCGACATGTATAAAAGGAGGTCAAAAC 
SEQS AACACCGGTGACT---------------------- GAGCTTAAC----------- AGTAT 
3EQ12 AGTGCGTGTACAT---------------------- GGCATTAGTTATAGGGGG--AACAT 
* v * * 而  * 
SEQ5 CCAGTTCAGCCACGGCGTAATCATTAATATGTATTCAGATGCCGGGTCTAAAAGACATGA 
SEQ9 CCCGCGCATTTATGAC-------TTGCTAGGCGCGCGCGTGATAGTAATAATTTACACGA 
3EQ12 TCGGCACATTGGAACTGTAACCGTTACTTAÀG----------------- TCATGTCCGCGG 
十 * * 十 上 ME * * * $ 
SEQ5 CACTGTAGGACGAAAGGTAAGAAAGGCTACCTACCAATTCGATTGTGGCCGGAATACAGG 
SEQ DOLAUTAG---———— e ccc epa coa ec pre parc n pres reni 
3EQ12 GOT ENE TCTAGATGTGGGC---------- 
"o N* 
SEQ5 GTAGAACGGCGTTTAÀ 
SEQ8 0 ---------------- 
SEQ1l2 . .  ---------------. 


( DGQPSO 算法 下 的 序列 比 对 结果 


图 6.6 INT High short 在 六 种 算法 CW、BW、PSO、QPSO、 


DMQPSO、DGQPSO 下 得 到 的 序列 比 对 结果 ( 续 ) 
188 


cya rhoge 
c550 bacsu 
ldvh 

letp 

icch 


cya rhoge 
c550 bacsu 
ldvh 

letp 

lcch 


cya rhoge 
c550 bacsu 
ldvh 

letp 

lcch 


cyz rhoge 
c55D0 bacsu 
idvh 

letp 

lcch 


cya rhoge 
c550 bacsu 
ldvh 

letp 

lcch 


cya rhoge 
c550 bacsu 
ldvh 

letp 

lcch 


PETI. 


---ÀTPAELATKAG-CAVCHOPTAKGL-GPSYQEIAEKKYEGQAGAPALMAER-VREGSV- 
---À5PEEI-TEKAN-CIACHGENYEGVSGPSLKGV----- GDEKDVAEIETK-IEKGGN- 
---ADGAÀAL-YES--CIGCHGADGSKAAMGSOAKPV----EGOGAEELTYTEKMEGYADGSY- 
DàEkAicQGEV---AV-CGACHGVDGNSP-APHFPEL----ÀGOGERYLLEQLODIKAGSTP 
---QDcEAL-FREKOKPCAACHOVDTEMV-GPALKEVAAKNMAGVEGAADTILALH-IKNGSQ- 


*o +t i . * : 5, 


----GIFGKLPMTPTPAÀRPISDADLELVIDWIL--- 
-—---6G----MPSGLVPADKLDD----- MAEWVSEI- 
----G-GERKAMMTNAVEKKTSDEELKALADYMSEL- 
GAhPEGVGRKVLEMTGMLDPLSDODLEDIAAYFSSQE 
----GVWUGPIPM---PPHPVTEEEAKILAEWVLSOLE 


* : 


(a BW 算法 下 的 序列 比 对 结果 


--AÀTPAELATEKAGCAVCHOPTAEGLGPSYQEIAEKKYKGQAGAPALMAERVREGSVGIFGE 
--ASPEEIYEKAN-CIACHGEN--YEGVSGPS--LEGVGDKEDVAEIKTEKIEEKGGNGMPSG 
--ADGAALYES--CIGCHGADGSEAAMGSOAÀEP-VEGQGAEELYERKMEGYADGSYGGERKÀA 
DAEAGOGKVAV--CGACHGVDGNSPAPNFPE--LAÀGOGERYLLEKQLODIEKAGSTPGAPEG 
--QDGEALFESKPCALACHSOVDTEMVGPALKEVAAEKMAGVEGAADTLALHIKNGSQGVUWGP 


to tt . : * : "2: 


LP----MTPTPARPISDADLELVIDWIL--- 


L--—--——--—-—-—--—--- VPADELDDMAEWVSKI- 
N--—-—--- MINAVERYSDEELKALADYMSEL- 
VGREVLEMTGMLDPLSDODLEDIAAYFSSOK 


Lp————- MPPHPVTEEEAKILAEWVLSLE 


(b ”CW 算法 下 的 序列 比 对 结果 


ATPAELATK-AG-CAVCHQP--TARKGLGP-SYQEIAKRYEGQAGAPALMHA--ERVERGS- 


ÀASPEEIY-K-AN-CIACHGENYEGVS-GP-SLEKGVGDKREDV----- AEIK--TKIERGG- 

ADGAALY-EK-S--CIGCHGAÀ--DGSKAAMGSOAEKPVKGOGAE----- ELYEEMEGYADGS- 

-DAEAGQGKVAV-CGACHGV--DGNSPAP-NFPELAGQGER----- YLLEQLODIKAGST 

QDGEALF-EK-SEKPCAACHSV--DTEMVGP-ALKEVAAENMAGVEGAADTLÀAÀ--LHIKNGS- 
ra * TA a 


* 


----WGIFGKEKLPMTPTPARPISDADLEKLVIDWIL--- 
-——-No------ H---PSGLVPADELDDMAEWVSKI- 
----YG-GERKAMMTNHAVEKYSDEELKALADYMSEL- 
PGAPEGVGREVLEMTGMLDPLSDODLEDIAAYFSSQEK 
----QGVWGPIPM---PPNPVTEEEAKILAEWVLSLE 


LÀ E E Li - 


(o) PSO 算法 下 的 厅 列 比 对 结果 


图 6.7 得 日 质 序列 451c 在 五 种 算法 CW、BW、PSO、QPSO、 


DMQPSO、DGQPSO 下 得 到 的 序列 比 对 结果 


189 


基于 隐 马 尔 可 夫 模 型 和 QPSO 算法 的 多 序列 比 对 NN 


cya rhoge 
c550 bacsu 
ldvh 

letp 

lcch 


cyz rhoge 
c550 bacsu 
ldvh 

l]etp 

lcch 


cya rhoge 
c550 bacsu 
ldvh 

letp 

icch 


cyz_rhoge 
c3550 bacsu 
ldvh 

letp 

lcch 


cya rhoge 
c550 hbacsu 
ldvh 

letp 

lcch 


cyz rhoge 
c550 hbacsu 
ldvh 

letp 

lcch 


M 中 篇 多 序列 比 对 模拟 篇 


ATPAELATKAGCAVCHOPTAEGL-GPSYOEIALKEKYEGQAGAPALMAERVERGSVGIFGEKL 
ÀASPEEIYE-ANCIACHGENYEGVSGPSLEGVGDEEKD----- VAEIETKIEEGGNG----H 
ÀADGAALYK--SCIGCHGADGSKAAMGSAEKPVEKGQGÀA-----—- EELYEEMEGYADGSYGGE 
DAEAGQGEVAVCGACHGVDGNSP-APNHFPELAGQGE-----—- RYLLEQLODIKAGSTPGÀA 
QDGEALFKSKPCAACHSVDTEMV-GPALKEVAAENAGVEGAADTLALHIEKNGSQGVUWGPI 


do tt , : * 


PHMTP--------TPAÀRPISDADLEKLVIDWIL--- 
Else mtt citis VPADELDDMAEWVSKI- 
REKAM------ MINAVEKYSDEELKALADYMSKL- 
PEGVGEEVLEMTGMLDPLSDODLEDIAAYFSSQE 
Pene PPNPVTEEEAKILAEWVLSLE 


(d QPSO 算法 下 的 友 列 比 对 结果 


ATPAELATKAGCAVCHOPTAEKGL-GPSYQEIARKEYKGQAGAPALMAERVR---E-GS-VG 
ADGAÀALYK--SCIGCHGADGSKAAMGSAKPVEGQG----— À-EELYEKMEGYAD-GS-YG 
DAÀEAÀGOGEVAVCGACHGVDGNSP-APHFPELAGQG--ERYLLEKQLOQ-DIKAGSTPGAPEG 
ODGEALFKSEPCAACHSVDTKMV-GPALKEVAAKMAGVEGAADTLALHIKMNGSQ-----G 


do d . * 


IFGKLPMTPTPARPISDADLKLVIDWI---L 
Hee PSG---LVPADELDDMAEWV-SKI 
GERKAM-MTNAVEKYSDEELKALADYM-SEL 
VGREVLEMTGMLDPLSDODLEDIAAYFSSQK 
VWGPIP-MP--PNPVTEEEAEKILAEUWVLSLE 


(e) DMQPSO 算法 下 的 序列 比 对 结果 


ATPAELATEKAGCAVCHOPTARKGL-GPSOYOEIAKKYEGOAGAPALMAERVEKGSOVGIFGKL 
ASPEEIYEK-ANCIACHGENYEGVSGPSLEGVGDEKD----- VAEIKTKIEKGGNG----M 
AÀADGAALYK--SCIGCHGADGSKAALMGSAKPVEGQGAÀ------EELYEKMEGYADGSYGGE 
DAEAGQGKVAVCGACHGVDGNSP-APNMFPELAGQGE------ RYLLKOLODIKAGSTPGAÀ 
ODGEALFKSEPCAACHSVDTEMV-GPALKEVAAEKMAGVEGAADTLALHIKNGSQGVWGPI 


而 "ow z L3 
" Li 


PNTP-------- TPARPISDADLELVIDWIL--- 
Pool VPADELDDMAEWVSKI- 
RKAM------ MTHAVEKYSDEELEALADYMSEL- 
PEGVGREVLEHTGCHLDPLODQDLEDIAAYFSSQK 
pH----------- PPHPVTEEEAKILAEWVLSLE 


( DGQPSO 算法 下 的 厅 列 比 对 结果 


图 6.7 ^EÉEJRIT)J45S1c 在 6 种 算法 CW、BW、PSO、QPSO、 
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DMQPSO、DGQPSO 下 得 到 的 序列 比 对 结果 ( 续 ) 
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6.4 AA 


Avid f EH] QPSO 算法 及 其 改进 的 QPSO 算法 DMQPSO 
和 DGQPSO 来 训练 剖面 隐 马 尔 可 夫 模 型 (HMM) 的 参数 ， 进 行 多 订 
列 的 比 对 。HMM 算法 是 基于 概率 模型 的 ， 它 本 映 的 结构 决定 了 它 
可 以 用 在 多 序列 比 对 上 。 从 实验 结果 可 以 看 出 ， 在 训练 的 过 程 中 ， 
BW 算法 和 了 PSO 算法 容 匈 陶 入 局 部 最 优 ,但 是 QPSO 算 法 .DMQPSO 
和 DGQPSO 算法 是 一 种 全 局 收 合 算法 ， 可 以 得 到 最 优 的 模型 参数 ， 
是 一 种 非常 有 效 的 HMM 训练 方法 。 在 比 对 的 过 程 中 ，QPSO 算法 、 
DMQPSO 和 DGQPSO 算法 ,不论 SOP 得 分 还 是 SPS 得 分 ， 分 值 都 
局 于 BW 和 PSO 算法 ,并且 能 产生 较 好 的 比 对 结果 。 从 所 有 实验 结 
果 中 还 可 以 得 出 DGQPSO 算法 的 性 能 最 好 , 能 够 找到 最 多 的 相似 性 
区 域 。 

在 训练 HMM 的 时 间 上 ，PSO 算法 、QPSO 算法 、DMQPSO 和 
DGQPSO 算法 所 消耗 的 时 间 大 致 相同 , 平均 时 间 为 6h, 但 是 这 四 种 
算法 的 时 间 都 大 于 BW 所 消耗 的 时 间 ，BW 的 训练 时 间 平 均 只 需要 
几 分 钟 。 需 要 强调 的 是 ， 基 于 HMM 和 QPSO 算法 、DMQPSO、 
DGQPSO 算法 在 对 于 长 序列 的 问题 上 也 得 到 了 较 好 的 比 对 性 能 。 但 
是 ， 随 独 序 列 个 数 和 订 列 长 度 的 增加 ， 算法 所 消耗 的 时 间 越 来 越 长 ， 
怎样 提高 算法 的 效率 是 将 来 工作 的 一 个 重点 。 
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第 7 章 ”多 序列 比 对 的 并 行 计算 


随 看 生物 信息 技术 的 发 展 ， 长 基因 组 生物 序列 数据 越 来 越 多 ， 
原 有 的 多 序列 比 对 方法 对 于 长 序列 比 对 的 效率 较 差 ， 对 于 超 长 序列 
或 超 多 序列 的 比 对 问题 成 为 当前 生物 信息 学 总 需 解决 的 问题 。 随 看 
计算 机 科学 和 计算 机 价 件 的 肥 展 提升 ， 上 和 而 这 个 问题 的 研究 也 进入 
了 一 个 新 的 阶段 一 一 并 行 计 算 。 有 研究 表明 ， 序 列 比 对 的 多 数 算法 
名 其 有 民 好 的 内 在 并 行 特 性 ， 通 沼 的 思路 模式 十: 先 将 整个 任务 分 
解 成 大 量 的 相互 独立 的 子 任务 , 通过 将 子 任 务 回 进程 的 适当 映射 后 ， 
n] ft 4 3-4 E 25 PR] DU DU 287p e EI Pes rf LUC RU Tro A POLIT 
KA T TES AAT IF] AER Ra~ MESAR. AGE dS UA EL 
思路 提出 几 个 多 序列 比 对 的 并 行 算 法 。 


7.1 长 序列 首尾 分 段 并 行 比 对 算法 
711 引言 


无 论 什 么 比 对 算法 ， 在 比 对 较 短 序列 时 都 可 以 获得 较 好 的 比 对 
质量 ， 但 对 于 长 序列 的 比 对 效果 并 不 理想 。 在 第 三 代 测 序 技术 以 及 
基因 组 拼接 扩 术 的 不 断 有 友 展 下 ， 生 物 信息 领域 获得 了 越 来 越 多 的 长 
基因 组 序列 数据 ， 长 序列 比 对 成 为 急需 解决 的 问题 。 目 前 国内 外 对 
于 长 序列 比 对 方法 的 研究 还 处 于 探索 阶段 ， 现 有 的 方法 很 少 ， 基 本 
A PANES. B-REN "TP HE" (seed and extend) 为 基本 忆 
想 的 算法 ， 如 较 早 的 有 基于 BWI(burrows-wheeler transform) z& 5|1x 


E 中 篇 “多 序列 比 对 模拟 篇 . 


术 的 BWTI-SW、BWA-SW, 近期 的 依据 哈 布 表 (hash table) 的 YAHA、 
SAP 等 。 这 些 工 具 在 结构 要 异 断 点 的 检测 敏感 性 和 准确 性 方面 各 有 
特点 ， 比 对 效率 方面 也 不 尽 相 同 ， 但 都 有 需要 改进 的 地 方 。 第 二 类 
是 以 “分 而 治之 ”(divide-and-conquer) 为 基本 思想 的 算法 ， 将 长 序列 
分 段 成 短 序列 分 别 比 对 再 整合 ， 拼 接 成 最 后 的 比 对 结果 。 

传统 的 算法 对 内 存 空 间 的 庞大 和 需求 以 及 漫长 的 运行 时 间 已 经 无 
法 满足 对 这 种 大 规模 数据 的 处 理 ， 因 此 长 序列 比 对 的 并 行 计算 成 为 
研究 的 一 个 热点 问题 。 张 法 和 刘 志 勇 等 提出 基于 Smith-Waterman 算 
法 的 并 行 生 物 序列 比 对 算法 PSW-DC 算法 ); 陈 娟 基于 蚁 群 算法 结合 
遗传 算法 进行 并 行 比 对 计算 ; Silva 等 提出 并 行 小 生境 多 目标 遗传 算 
法 进行 多 序列 比 对 ;Blazewicz 等 基于 T-Coffee 算法 提出 多 GPU x 
考 的 并 行 比 对 G-MSA 法 。 在 并 行 计 算 中 第 用 到 “分 而 治之 ”策略 ， 
但 是 基于 “分 而 治之 ” 银 略 的 比 对 结果 依赖 于 分 段 点 的 定位 ， 分 段 
点 并 不 是 简单 的 等 分 ， 当 某 次 分 段 点 定位 不 当 ， 将 会 直接 影 啊 到 下 
一 次 的 分 段 及 比 对 ， 造 成 连锁 不 展 效应 ( 即 表 后 制约 效应 )， 由 此 影 
啊 到 最 终 的 比 对 结果 。 传 统 的 做 法 是 以 贫 朴 算法 寻找 分 段 点 ， 计 算 
效率 很 低 ， 于 是 有 研究 者 致力 于 快速 寻找 最 优 分 段 点 ， 垄 避 华 提出 
基于 最 长 相似 片段 分 割 计算 的 LSS-DCA 法 ; 陈 娟 应 用 遗传 算法 计算 
友 列 的 分 段 点 ; 业 宁 每 同时 考虑 横 同 切片 和 纵 回 分 割 的 折 中 ， 设 计 
了 DCA-ClustalW 算法 。 但 是 这 些 方法 的 算法 构造 较为 复杂 ， 不 容 
易 编程 实现 。 对 于 长 序列 比 对 ， 构 建 一 个 既 能 快速 定位 最 优 分 段 点 
又 结构 简单 的 并 行 算法 也 是 本 间 的 一 项 研究 内 容 。 

随 看 测序 技术 的 发 展 ， 有 越 来 越 多 的 长 序列 需要 分 析 比 对 ， 只 
有 采用 大 规模 并 行 计算 才能 满足 长 序列 比 对 要 求 ,“ 分 而 治之 ”策略 
是 第 用 的 并 行 思路 。 基 于 “分 而 治之 ”策略 ， 结 合并 行 计算 ， 构 造 
长 序列 首尾 分 段 并 行 比 对 算法 。 将 长 序列 首尾 随机 分 成 短 序列 段 ， 
身分 配给 相应 的 处 理 占 并 行 比 对 ， 最 后 拼接 整合 成 比 对 结果 。 这 种 
首尾 分 段 的 方式 可 以 降低 前 后 制约 效应 ， 随 机 分 段 的 方式 可 以 降低 
寻找 最 优 分 段 点 的 难度 。 
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7.1.2 构造 原理 


基于 “分 而 治之 ”策略 ， 结 合并 行 化 思路 ， 提 出 长 序列 首尾 分 自 
并 行 比 对 的 设想 ， 先 将 长 序列 首尾 随机 分 成 短 序列 段 ， 再 分 配给 相应 
的 处 理 器 并 行 比 对 ， 最 后 拼接 整合 成 比 对 结果 。 构 造 理念 是 ， 分 段 顺 
序 以 首尾 两 端 同时 向 中 间 逐 步 分 段 ， 则 “ 首 ” 的 分 段 不 影响 到 “ 尾 ” 
的 分 段 ， 由 此 可 降低 分 段 的 前 后 制约 效应 ， 先 随机 分 段 再 并 行 计算 ， 
从 中 挑选 最 优 比 对 以 确定 分 段 点 的 方式 可 以 降低 定位 分 段 点 的 编程 难 
度 。 具 体 描述 如 下 按照 
当今 流行 的 短 序列 此 对 。 一 
软件 的 序列 长 度 默认 扒 
荐 值 100bp 来 确定 基本 


| divide initial part | divide end par | 


分 段 长 度 , 将 长 序列 首尾 Z — 
随机 分 成 100bp 左右 的 段 一 一 
(在 80 一 120bp 之 间 产 生 | alion aign | 


随机 整数 作为 每 一 段 的 一 
长 度 ， 取 值 范围 可 以 根据 


— 


序列 信息 适当 调整 ), 将 这 N etot 

些 随机 分 段 的 短 序列 分 一 一 一 一 一 一 

配 到 处 理 器 并 行 比 对 ， 从 | / na N, 

中 挑选 最 优 比 对 结果 ， 由 —— 

此 确定 首尾 分 段 点 的 定 

位 , 再 按照 这 个 定位 对 中 ee | 

间 未 比 对 的 部 分 继续 首 — 一 一 
尾 分 段 比 对 ， 依 次 类 推 ， 

直至 全 部 分 段 比 对 完成 ， | concatenate | 


表 将 所 有 的 短 序 列 比 对 
结果 拼接 形成 最 终 的 比 
对 结果 。 示 意图 见 图 7.1。 图 7.1 长 序列 分 段 比 对 图 
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I 中 篇 “多 序列 比 对 模拟 篇 。 
7.1.3 ”数值 模拟 结果 


以 序列 2cba refl 为 例 ， 它 的 序列 中 最 长 序列 长 度 为 239bp， 符 
合 长 序列 的 特点 ， 如 图 7.2 所 示 。 


CAH1 HUMAN DWGYDDKNGPEQWSKLYPIANGNNQSPVDIKTSETKHDTSLKPISVSYNPATAKEIINVGHSFHVNFEDNDNRSVLKGGPF SDSYRLFGF 
CAH4 RAT HWCYEIQAKEPNSHCSGPEQWIGDCKKNQQSP INIVTSKTKLNPSLTPFTFVGYDQKKKWEVENNQHSVEMSLGEDIYIFGGDLPTQYKA 
CAHG6 HUMAN DWTYSEGALDEAHWPQHYPACGGQRQSP INLQRTKVRYNPSLKGLNMTG YE TQAGCEFPMVNNGHTVQIGLPSTMRMTY ADG IVYIAQQMH 
CAH DUNSA HDYNYEKVGFDWTGGVCVNTGTSKQSPINIETDSLAEESERLGTADDTSRLALKGLLSSSYQLTSEVAINLEQDMQFSFNAPDEDLPQLT 
CAH2 CHLRE HSLNGENWEGKDG AGNPWVCKTGREQSPINVPQYHVLDGKG SK IATGLQTQWSYPDLMSNG SSVQVINNGHTIQVQWTYDYAGHATIAIP 
CAH1 HUMAN HFHWGSTNEHGSEHTVDGVKYSAELHVAHWNSAKYSSLAEAASKADGLAVIGVLMKVGEANPKLOEVLDALQATIKTKGKRAPFTNFDPST 
CAH4 RAT IQGLHLHWSEESNKGSEHSIDGKHFAMEMHVVHEKMTTGDKVQDSDSKDKIAVLAFMVEVGNEVNEGFQPLVEALSRLSKPFTNSTVSESC 
CAH6 HUMAN FHWGGASSEISGSEHTVDGIRHVIEIHIVHYNSKYKTYDIAQDAPDGLAVLAAFVEVKNYPENTYYSNFISHLANIKYPGQRTTLTGLDV 
CAH DUNSA IGGVVHTIFKPVQIHFHHFASEHAIDGQLYPLEAHMVMASQNDG SDQLAVIGIMYKYGEEDPFLKRLQETAQSNGEAGDKNVELNSFSINV 
CAH2 CHLRE AMRNQSNRIVDVLEMRPNDASDRVTAVPTQFHFHSTSEHLLAGKIFPLELHIVHEVTIDKLEACKGGCFSVTGILFQLDNGPDNELLEP IF 
CAH1 HUMAN LLPSSLDFWTYPGSLTHPPLYESVTWIICKESISVSSEQLAQFRSLLSNVEGDNAVP 

CAH4 RAT LQDMLPEKEKKLSAYFRYQGSLTTPGCDETVIWIVFEEPIKIHEKDQFLEFSEKKLYYDQEQELN 


CAH6 HUMAN ODMLPRNLOHYYTYHGSLTIPPCTENVHWFVLADFVELSRIQVWELENSLLDHRNKT 


CAH DUNSA ARDLLPESDLTYYGYDGSLTTPGCDERVEWHVFREARTVSVAQLKVFSEVTLAAHPEAT 
CAH2 CHLRE ANMPTREGTFTNLPAGTTIKLGELLPSDRDYVTYEGSLTTPPCSEGLLWHVMTQPQRISFGQWNRYRLAVGEKECNSTE 


图 7.2 重 日 质 序 列 2cba refl 


以 每 一 段 100bp FARKE, 将 2cba refl 随机 分 为 三 段 ， 分 别 
HN. nk 7.3 Wr. 


CAHi HUMAN  DWGCYDDK  NGPEQWSKLYPIANGN NQSPVDIKTSE TKHDTSLKPISVSYN ^ PATAKEIINVCHSFHVNF 
CAH4 RAT  HWCYEIQAKEPNSHCSGPEQWIGD ^ CKKN QQSPINIVISK |. TELNPSLTPFTFVGYD QKKEWEVKNNQES — — 
CAH6 HUMAN  DWTYSEGA LDEAHWPQHYPACGGQ RQSPINLQRIK —— —  VRYNPSLKGLNMIGYET QAGEFPMVNN — — 
CAH DUNSA  HDYNYEK — VGFDWIGCVCVNTGTSKQSPINIETDSLAEESERLCTADDTSRLALKGLLSSSY ^ QLTSEVAINL - 

CAH2 CHLRE HSLNGENW EGKDGAGNPWVCKTGR KQSPINVPQYH VLDGKG SK IATGLQTQWSYPDLMSNG SSVQVINNGH 

(a) JFF] 2cba refl BEREI R 

CAH] HUMAN — 5 5 5 — EDNDNR — — d SVLKGGPFSDSYRLFQFHFHWG STNEHGSEHTVDGVKYSAELHVAHWNSAKYS 
CAH4_RAT ... VEMSLGED TN - IYIFGGDLPTQYKAIQLHLHWS | EESNKGSEHSIDGKHFAMEMHVVHKKMTTGD 
CAHG HUMAN GHIVQIGLPSTMRM —— — mu — TVADGIVYIAQQMHFHWGGASSEISGSEHTVDGIRHVIEIHIVHYNSKYKT 
CAH DUNSA  EQDMQFSFNAPDEDL —— PQLTIGCVVHIFKEPVQIHFHH ——— — FASEHAIDGQLYPLEAHMVMASQNDGS 
CAH2 CHLRE — —— TIQVQWTYDYAGHATIAIPAMRNQSNRIVDVLEMRPNDASDRVIAVPTQFHFH - STSEHLLAGKIFPLELHIVHKVTIDKLE 
CAHI HUMAN ^ SLAEAASKADGLAVIGVLMKVG 

CAH4 RAT KVQDSDSK DEI |. 

CAH6 HUMAN  — YDIAQDAP DGL m 

CAH DUNSA __—_————— DQLAVIGIMYKYG 

CAH2 CHLRE ACKG GCFSVIGILFQL 


(b) 序列 2cba refl 第 二 段 比 对 结果 


图 7.3 AYY] 2cba refl 分 三 段 分 别 比 对 
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CAH1 HUMAN 
CAH4 RAT 
CAH6 HUMAN 
CAH DUNSA 
CAH2 CHLRE 


CAHi HUMAN 
CAH4 RAT 
CAH6 HUMAN 
CAH DUNSA 
CAH2 CHLRE 
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EB .PFTINFDPSTILLPSS . LDFWTYPGSLIHPPLYTESVIWIICKESISVSSE 
AVLAFMVEVGN EVNEGFQPLVEALSRLSKPFTNS | .— TIVSESCLQDMLPEKKKLSAYFRYQGSLTTPGCDETVIWTVFEEPIKIHKD 
AVLAAFVEVEKNYPENTYYSNFISHLANIKYPGQRI | — TLIGLDVQDMLPRN  LOQHYYTYHGSLTTIPPCTENVHWFVLADFVELSRT 


M NEZLIENES ZEE EEEE IEEE XEZS ENS MENGE. 


. DNGPDNELLEPIFANMPTREGTFTNLPACTITIKLGELLPSD . RDYVIYEGSLIIPPCSEGLLWHVMTOPQRISFG 


QLAQFRSLLSNVEGDNAVP 
QFLEFSKKLY YDQEQKLN 
QVWKLENSLLDHRNKT  — 
QLEVFSEVILAAHPEAT - 
QWNRYRLAVGEKECNSTE - 


(c) 序列 2cba refl 第 三 段 比 对 结果 


图 7.3 ”蛋白质 序列 2cba refl 分 三 段 分 别 比 对 ( 续 ) 


经 过 遗传 算法 不 断 达 代 比 对 ， 最 后 将 三 段 比 对 结果 按 顺 序 拼接 


在 一 起 ， 


CAH1 HUMAN 
CAH4 RAT 
CAH6 HUMAN 
CAH DUNSA 
CAH2 CHLRE 


CAH1 HUMAN 
CAH4 RAT 
CAH6 HUMAN 


CAH DUNSA 
CAH2 CHLRE 


CAH1 HUMAN 
CAH4 RAT 
CAH6 HUMAN 
CAH DUNSA 
CAH2 CHLRE 


CAH1 HUMAN 
CAH4 RAT 
CAH6 HUMAN 
CAH DUNSA 
CAH2 CHLRE 


去 除 同 宇 位 列 ， 比 对 结果 如 图 7.4 所 示 。 


__DWGYDDKENGPEQ_ WS KLYPIANGN  NQSPVDI KISETKHDISLKPISVSYNPATAK EIINVG  HSFHVNFEDNDNRSVL 
HW_CYEIQAKEPNSHCSGPEQWTGDCKKNQQS__PINIVTSKTKLNPSLTPF TFVGYDQKKKWEVKNNQHSVE__MSLGED______IYI 
DW TY SEGALDEAHWPQHY PAC GGQROSPINLQR TKVRYNPSLKEGLNMIGYETQAGEFPMVNNGHIVQIGLPS ——— T - 
H DYNYEKVGFDWIGG V 


4 —. ..CWNIGTSKQSPINIETDSLAEESERLGTA  DDTSRLALKGLLSSSYQLTSEV AIN 
HSLNGE NWEGKDGAGNP  WVC KTC  RKQSPINVPQYHVLDGKGSKIATGLQTQW  SYPDLMSNGSSVQVINNGHT |... 


KGG .— PFSDSY RLFQFHFHWGSTNEHGSEHTV . DGVKYSAELH VAHW NSAKYSS LAEAASK —— ADGLAVIGVL 
FGGDLPIQYKAIQ .— LHL __ HWSEESNKGSEHSIDGKH FA ME  —MHVVHK KMTIGDKVQDSDSKDKIAVLAFMVE 
MRMIVA DGIVYI AQQ MHFH  WGGASSEISG S EHTVDGIRHVIEIHIV HYNS KYKTYDI | | 
L EQDMQFSFNA PDEDLPQLTIGGVVHIFKPYQI H  FHHFASEHAIDGQL YP  LEAHMVMASQNDGSDQLAVIGIMYKYGE 


QWIYDYAGHATIAIPAMRNQSNRIVDVLEMRPNDASDRVTAVPTQFHFHSTSEHLLAGKIFPLELHIV | HÉVIDELEACKGGCFSVTG 


MKVGEANPKLQKV —— LDALQAIKTKGKRAPFTNFDPS — — TLLPSSLDFWIYPGS LTH . PPLYES .— VTWIICKESISVS 
VGNEVNEGFQPLVEAL —— SRLSKPFTNSTVSESCLQDML  — PEKKKLSAY | F _ RYQGSLTTPGCDETV —— IWTVFEEP 
 AQDAP DGL AVLAAFVEVKNYPENTYYSNFISHLANIKYPGQRTILIGLDVQD  MLPRNLQHYYTYHGSLTITPPCTEN VHWFVL - 
 .EDPFLKRLQETAQSNGE | AGDKNVELNSFSINYVA _R |. GSLTTIPGCDERVKWH VFKE 


ILFOLDNG  PDNELLEPIFANMP  TREGTFTNLPFAGTTIKLGELL |PSDRDYVTYEGSLTTPPCSEGLLWHVMTO 


SE |. QLAQFRSLLSNVEGDNAVP 
IKIHKDQFLEFSKKLYYD QEQKLN 
ADFVKLSRTQVWKLENSLLDHRNKT 
ARIVSVAQLKV FSEVILAAHPEAT 
PQRISFGQWNRYRLAVGEKECNSTE 


图 7.4 重 白 质 序列 2cba refl 三 段 比 对 结果 拼接 


参考 库 中 比 对 好 的 序列 如 图 7.5 所 示 。 
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CAH1 HUMAN 
CAH4 RAT 
CAH6 HUMAN 
CAH DUNSA 
CAH2 CHLRE 


CAH1 HUMAN 
CAH4 RAT 
CAH6 HUMAN 
CAH DUNSA 
CAH2 CHLRE 


CAH1 HUMAN 
CAH4 RAT 
CAH6 HUMAN 
CAH DUNSA 
CAH2 CHLRE 


CAH1 HUMAN 
CAH4 RAT 
CAH6 HUMAN 
CAH DUNSA 
CAH2 CHLRE 


7.1.4 


4] EUN 


HDYNYEK — |.  J—  VGFDWIGGVCVNTIGTSKQSPINIETDSLAEESERLGTADDTSRLALKGLLSSSY 


AP DGLAVLAAFVEVKNYPENTYYSNFISHLANIKYPGQRT 
. ..DQLAVIGIMYKYGE |EDPFLKRLQETAQSNGEAGDEN VELNSFSINVARDLLPES  DLTYYGYDGSLTTPGCDERVKWHVFKEA 
...GCFSVTGILFQL | DNGPDNELLEPIFANMPTREGTFTNLPAGTTIKLGELLPSD 


基于 “分 而 治之 ” 5173 BLUSAR, 

lj Y Xe ET FE IP Yi [8] FP TR] 336 
时 也 降低 了 分 段 的 编程 难度 。 
FESRJETI DONE, 
时 也 得 到 了 该 分 段 的 最 优 比 对 。 这 个 算法 构 
同时 充分 利用 短 友 列 


I 中 篇 多 序列 比 对 模拟 篇 。,。 


_DWGYDDE________NGPEQWSKLYPIANGN NASPVYDIEISE ___________TKHDTSLKPISVSYN __PATAKEIINVGHSFHVY 


—HWCYEIQAKEPNSHCSGPEQWITGD | CKEN QQSPINIVISKE . .— BTEKLNPSLTPFTFVGYD  QKKKWEVENNQHSVEM 
JDWIYSEGA . Á LDEAHWPQHYPACGGQ RQSPINLQRTE. . .  Á—  VRYNPSLKGLNMTGYET QAGEFPMVNNGHTVQI 


...LTSEVAINLEGQDMGF 


HSLNCENW  — — | EGKDGAGNPWVCKTGR KQSPINVPQYH | | VLDGKGSKIATGLQTQWSYPDLMSNGSSVQVINNGHTIQV 


NFEDNDNR — SVLKGGPFSDSYRLFQFHFHWG STNEHGSEHTVDGVKYSAELHVAHWNSAKYSSLAEAA 
SIGED |. ee  IYIFGGDLPIQYKAIQLHLHWS  EESNKGSEHSIDGKHFAMEMHVVHKKMTTGDKVQDSD 
GLPSIMRM — TVADGIVYIAQQMHFHWGGASSEISGSEHTVDGIRHVIEIHIVHYNSKYKTYDIAQD 
SFNAPDEDL |. — LLL POLTIGGVVHTFKPVQIHFHH _  FASEHAIDGQLYPLEAHMVMASQNDGS ———— 
QWIYDYAGHATIAIPAMRNQSNRIVDYVLEMRPNDASDRVIAVPTQFHFH ———— — STSEHLLAGKIFPLELHIVHKVIDKLEACKG - 


TRSNE PFINFDPSTLLPS5___LDFWTYPGSLTHPPLYESVTWIICKES 
. [VS5ESCLQDMLPEKKELSAYFRYQGSLTTPGCDETVIWTVFEEF 


_____ILIGLDVQDMLPRN_ _LQHYYTYHGSLTIPPCTENVHWEF VLADF 


SK DKIAYLAFMVEVGN. EVNECFQPLVEALSRLSKPRINS 


. . RDYVTYEGSLTIPPCSEGLLWHVMTQP 


ISVSSEQLAQFRSLLSNVEGDNAVP 
IKIHKDQFLEFSKKLY YDQEQKLN 
VKLSRIQVWKLENSLLDHRNK | 
RIVSVAQLKVFSEVILAAHPEAT — 


QRISFGQWNRYRLAYGEKECNSTE | 
图 7.$ SEE XJ 2cba refl 参考 比 对 结果 


结论 


对 长 序列 首尾 随机 分 段 ， 因 为 
步 分 段 ， 可 以 降低 前 后 制约 效应 ， 
将 众多 随机 分 段 的 短 序列 分 配 到 各 处 
再 从 中 找 出 最 优 比 对 ， 不 但 确定 了 最 优 分 段 点 ， 同 
造 人 简单 ， 吻 实现 编程 ， 

高 效 比 对 的 优势 。 


7.2. 本 和 前 小 结 


根据 当前 生物 信息 学 多 序列 比 对 的 超 多 超 长 等 特点 ， 结 合 目 前 


的 信息 扩 术 ， 
提供 新 的 思路 和 更 优 的 比 对 结果 。 


提出 并 行 计算 的 比 对 思路 ， 为 超 长 序列 与 超 多 序列 的 


4, 878% 多 序列 比 对 的 并 行 计算 T 
Z2 5 X B 
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第 8 章 多 序列 比 对 的 参数 研究 


8.1 基于 SP 目标 函数 的 多 序列 比 对 参数 研究 
8.1.1 引言 


多 序列 比 对 是 生物 信息 学 中 节 基 本 的 工具 ， 在 序列 分 析 、 基 因 
识别 、 香 日 质 结 构 了 预 负 、 生 物 进 化 树 的 构建 等 领域 中 有 广汉 应用， 
同时 它 也 是 一 个 NP 完全 问题 ， 随 看 序列 长 度 和 条 数 的 增多 ， 时 衬 
复杂 性 急剧 上 升 ， 如 何 设计 一 个 具有 高 精度 、 高 速度 且 低 复杂 上 度 的 
多 序列 比 对 算法 成 为 生物 信息 学 中 非常 重要 且 具 有 挑战 性 的 问题 之 
一 。Notredame 概括 了 构建 多 厅 列 比 对 (MSAI) 算 法 的 两 大 组 成 部 分 : 
(用 来 评估 比 对 质量 的 目标 函数 ， 忆 用 于 识别 所 选 目标 函数 最 高 分 
值 (对 应 最 优 比 对 结果 ) 的 优化 过 程 。 

目标 函数 是 用 来 考 合 多 序列 比 对 结果 好 坏 的 一 种 度量 标准 ， 有 所 
有 的 多 序列 比 对 方法 部 依赖 于 一 个 目标 函数 来 说 明 比 对 结果 的 好 
十 ， 从 而 反映 出 此 方法 的 精确 上 度 和 有 效 性 。 当 醒 有 三 种 主流 的 目标 
EZ: 比 对 和 函数 (sum-of-pairs functions), — $X lE PA ZX (consensus 
functions) 499 PK ži (tree fonctions)， 其 中 使 用 最 普 明 的 是 比 对 和 图 数 
(HERNI SP PEZ). SP 图 数 需要 议 置 两 个 重要 的 参数 : BRAE pE 
(substitution matrix) P0 EA ia (gap penalties, HP EAA RiR TAM iN 
TEEM). Thompson SEIRE STAI EME Ai B TS BIS 
茶 换 答 隆 ， 考 处 亲 水 残 基 ， 提 出 特定 残 基 位 置 的 容 位 记分 。Gondro 
认为 容 位 训 分 参数 仍然 先 经 验 给 出 ， 如 何 确 定 最 住 的 参数 全 今 没 有 


E 下 篇 “多 序列 比 对 参数 篇 ， 


理论 框架 。 当 前 大 多 数 文 献 的 目标 函数 参数 采用 经 验 值 。 如 果 讶 目 
选用 一 组 目标 函数 参数 ， 是 否 适合 比 对 也 未 可 知 ， 直 接 用 来 比 对 也 
许 会 得 到 毫 无 意义 的 比 对 结果 , 造成 无 谓 的 浪费 。 本 章 基 于 SP 目标 
图 数 ， 构 建 理论 框架 ， 从 中 推导 出 蔡 换 窍 阵 及 衬 位 划分 公式 ， 根 据 
每 测序 列 的 长 度 条 数 相 似 度 等 信息 得 到 合适 的 蕉 换算 阵 与 空位 记 
分 ， 从 而 得 到 高 质量 的 比 对 结果 。 

当前 有 很 多 学 者 根据 多 序列 比 对 的 原理 开发 了 非常 方便 好 用 的 
开源 在 线 比 对 工具 ， 如 MAFFT、CLUSTALW、T-Coffee 等 ， 应 用 
这 些 比 对 工具 能 快速 地 得 到 较 好 的 比 对 结果 ， 成 为 当前 多 序列 比 对 
最 音 用 的 比 对 手段 。 但 是 这 些 结果 对 衬 位 间 分 与 计 分 矩阵 等 参数 的 
依赖 性 很 强 ， 不 同 参 数 下 得 到 的 结果 很 不 一 样 ， 绝 大 多 数 用 户 在 
应 用 这 些 比 对 工具 时 使 用 单一 的 默认 参数 ， 这 些 默 认 参 数 虽 然 能 
得 出 较 好 的 比 对 结果 ,但 未 必 是 最 好 的 比 对 结果 。 男 外 ， 目 前 尚 
没有 有 效 的 方法 直接 确定 最 优 参 数值 ， 故 很 难 直 接 通 过 在 线 工 具 
得 到 局 部 最 优 解 。 在 各 种 第 用 的 在 线 测试 工具 中 , MAFFT THH 
有 输入 参数 简单 且 比 对 结果 较 好 等 优点 ， 本 章 以 MAFFT 作为 基 
础 实验 工具 以 验证 奉 换 定 阵 与 至 位 罚 分 公式 的 正确 性 。 


8.1.2 基本 定义 
1. 多 序列 比 对 问题 及 数学 描述 


一 条 长 度 为 k 的 序列 是 个 字符 组 成 的 字符 串 ， 字 符 取 目 于 字母 
X {A, VL,LFE,PM,S,T,Cc,W,Y,N,Q,D,E,K,R,H,G!, 4f 
表 重 白质 的 二 十 个 氨基 酸 残 基 类 型 。 对 于 重 白 质 序列 , 给 定 包 含 和 个 
序列 的 序列 集 S 2 (5,8, S.) N22, $,-S,$, S, SiS N), 
$,€ 2,( 志 J 志 7)，1 是 第 i 条 序列 的 长 度 ， 则 一 个 序列 比 对 可 定义 
为 一 个 矩阵 4=(a,), 其 中 1<i<N,1<j</l, max() SIS 3) i 


起 阵 必 须 满足 下 列 三 个 条 件 : 
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(1) we 》_U{， 其 中 “一 ”代表 空位 。 

(D) ERER ifr Ad "—" Js, BIA SUTTABS,. 
(3) AR ErPUAIBL TTE EA xe THI. 

2. 目标 函 效 定义 


sum-of-pair(SP) KAURAA H score = ) Residue 一 penalty 
表示 。 其 中 , score 定义 为 正 数 , 分 值 越 高 , 比 对 效果 越 好 ; X Residue 
是 比 对 后 的 蛋白 质 序 列 中 氨基 酸 残 基 的 总 分 ， 定 义 为 Residue >0 ; 
> penalty 3&d& A^ & P^ ER ua. EXN 2. penalty >Q 。 


X Residue = 33 5 Cost(5,, 5.) 


h-l i=l j=i+l 


其 中 

|... [S —Score(a,a) 如 条 两 个 残 基 相同 (匹配 ) 
Cost(5.,$.)—4 | | Iu MU ER 
S, —Score(a,b) 如果 两 个 非 空 位 残 基 不 同 (不 匹配 ) 


目前 常用 的 计 分 矩阵 有 两 类 : BLOSUM 和 矩阵 和 PAM ERE. Æ 
革 选 用 BLOSUM 知 阵 系列 ， 如 图 8.1 所 示 。 

奉 换 矩阵 的 $， 互 不 相等 ，S, 也 是 互 不 相等 的 。 一 般 来 说 ，5S， 
1721-25) fH. mean(S,,) 和 5S, 的 最 大 值 max(S,,) 可 达到 该 数据 的 最 基本 
要 求 。 因 此 ， 为 简化 计算 ， 以 下 统一 规定 mean(S,, ) 为 该 矩阵 匹配 分 
信 ，max(9 ，,) 为 衣 窍 阵 非 匹配 分 但。 

其 中 ， 》 penalty 的 计算 根据 插入 空位 的 定义 也 分 为 两 大 类 : 
zx PENA SU Wr. SEDET A) AE ELA RET ILI BIER) AT AC 
仿 射 如 分 根据 生物 定义 将 衬 位 分 为 起 始 空位 和 延续 空位 ， 其 产生 的 
罚 分 分 别 简写 为 GOP 和 GEP, 》 penalty = Noo, .GOP+ Na, - GEP ， 
HP Noop GOP 的 个 数 ，N © GEP 的 个 数 ， 且 GOP>GEP. R 
有 生物 意义 的 仿 射 董 分 是 当前 最 钊 应 用 的 站 分 方式 。 
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io io 
3 


图 8.1 BLOSUM62 矩阵 


8.1.3 公式 推导 


设 符 测 序列 共 m 条 ， 最 长 序列 长 度 为 len ， 最 短 序列 的 长 度 为 
， 平 均 相似 度 为 i4en ， 和 氨基酸 残 基 匹 配 个 数 为 num,, ， 定 义 


mim —1) 


Mi — 5 eleni «iden 。 比 对 后 每 条 序列 插入 空格 的 数目 为 
num,，， 在 比 对 过 程 中 不 可 能 插入 无 限 多 的 空位 ， 通 常规 定 空位 数量 
不 超过 竺 测序 列 最 长 序列 长 度 的 0.2 fii, BI mum,  INT(0.2 - len, ) ， 
INT 是 取 整 图 数 。 例 如 ， 竺 测序 列 最 大 长 度 为 10， 则 每 条 序列 最 多 
插入 2 NEM. K| 8.2 是 比 对 前 后 的 示意 儿 。 构 建 思 路 是 取 节 优 状 

态 的 行 测序 列 ( 无 军 位 ) 与 其 最 送 的 比 对 结 末 (插入 最 多 守 位 及 最 少 匹 
— 比较 ， 比 对 后 的 分 数 仍 融 于 比 对 前 的 分 数 ， 此 时 得 到 的 结果 
参数 就 是 满足 在 比 对 过 程 所 有 情况 下 的 参数 。 
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AAAOAAAAAA)Y 
HOHHHHHHHH 
KEKKKEKKKNKK ym m 
DDDDDDDDDD 
GGGGGGGGGG J 
len num,, len, num,, num, 
(a) 比 对 前 的 序列 (b) 比 对 后 的 序列 
图 82 比 对 前 后 示意 图 
由 SP 公式 计算 得 得 测序 列 分 数 为 
score, .,, = » Residue — >_ penalty = —— 2 elen «S, 
比 对 后 的 序列 分 数 为 
1 n—1n-2 
Score; = |. (len, — num,,,) — NUM paten 十 o RS 


e num "IP S, HÊ «num, uu S, — » penalty 


从 理论 上 ， 比 对 后 的 分 数 必须 严格 大 于 比 对 前 的 分 数 ， 即 
SCOrF C begin < SCOFE ad 
iy 


一 一 len. «9, < uud (len... — NUM ,)-— num, + 


(8.1) 
(mm - Dim -2) 


z 
AF, oe. BÆRER, KBOo«oecl, 08«B«l. 


1. TRAE REFI rZ XX 
AG. Dig Ho Jy 


num, | S p + J enum «S, 一 7. penalty 
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E 下 篇 “多 序列 比 对 参数 篇 . 


(am — 2a — m)(m —1) i 
NES MN (S , T num, «(DS —S .) (8.2) 


— » penalty » 0 
对 式 (8.2) 再 进行 化 简 可 得 
un — RN. je. 
2p num... Ê 
BJ PET PERE [EAT BE EU 


mean(S__) > (am-2æ-m)\l-m) Mea Ll. max(S,, ) (8.3) 
E z D n UM natch p | 


n—20—myl-m) num,, 
假设 mean(S ) KEH reference, | E" 2e — mod m) mem 
2p NUM natch 


+ 5 -max(S,,) 为 计算 值 calc， 则 式 (8.3) 可 简化 为 


reference > calc (8.4) 
根据 式 (8.49 可 判断 所 选取 的 计 分 滤 阵 是 耕 合 理 。 
例如 451c_refl H7], 355 条 ， 最 大 长 度 是 87， 最 小 长 度 是 80, 
相似 度 是 23%， 欲 选取 BLOSUMAS 4ER, H max(S,,)=3，@=0.5， 
B=0.95 ， 则 其 计算 值 为 
"S " 


calculated value — | | 
ZH num match 


= 5.492 
H5 H reference = mean(S,,) 2 7.05 ， 符 合式 (8.4) 要 求 ， 即 可 以 选 
择 BLOSUM45 矩阵 作为 451c refl 的 替换 矩阵 。 


设 待 测序 列 有 m 条 序列 ， 比 对 后 每 条 序列 插入 空格 的 数目 为 
um ,在 仿 射 罚 分 前 提 下 , 假设 每 条 序列 中 空位 数 是 起 始 空位 的 4 
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"m l l m 
As, Mi " cm. BU p — -mm , | 对 为 GOP> 


GEP, w GOP =n. GEP, EF A, nn 是 下 整数 ， 则 


* penalty = Noo, + GOP + No, - GEP = : n - m «num, + GOP 
HEREDA 
一 一 一 一 一 e NUM gap E S + num match * (B Da n SE ) d > P enal [y —? 
GOP < cmm e um gap ™ M T NUM natch (B S M ] . 
" (8.5) 


m(n * À—1)- num, , 

式 (8.$) 为 起 始 空位 罚 分 GOP 的 上 限 计算 公式 , 且 其 下 限 GOP > 0 。 

如 果 在 GOP 上 限 乘 以 权重 系数 0<w<1， 可 得 最 佳 GOP 估计 
AR: 

(aum — 2a: — my(m — 1) " 


GOP- o | 
2 


UM p ° Sab + NUM natch (B a i ou ) | ? 


" (8.6) 


m(n + À—1)« num, , 
AH, 


| mn - 1) 


num — leni, «iden , num,,, = INT(0.2 X len ax) 


match 一 


INT ERKKA len n 是 竺 测序 列 中 最 短 友 列 的 长 度 ，iden 是 
fs F2] JA 35] ARÁDUSE - 
最 佳 GEP 估计 公式 : 
GEP = GOP/n (8.7) 
式 (8.0) 与 式 (8.7) 中 的 各 权重 系数 愉 B. AS n、@ 将 通过 实验 数 
据 验 证 给 出 最 住 数值 。 
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8.1.4 和 实验 结果 与 分 析 
1. 实验 设计 


为 了 对 数据 进行 统一 且 精 确 的 比较 ， 本 节 以 BALiBASE2.0 数据 
JÆ refl —ref3 共计 113 组 序列 禾 作 为 测试 对 象 ， 且 应 用 该 数据 库 的 
SPS(sum of pair score) 作 为 统一 的 比 对 评价 标准 ，SPS 分 信 表 示 残 基 
对 准确 对 齐 的 比率 ，SPS 值 越 高 ， 说 明 比 对 的 结果 越 接近 于 参考 序 
列 ， 比 对 效果 越 好 。 

当前 有 很 多 热门 的 在 线 比 对 工具 ， 如 MAFFT. ClustalW., 
T-Coffee, MUSCLE 等 ， 它 们 的 比 对 速度 都 很 快 ， 比 对 结果 也 相差 无 
几 ， 之 所 以 选择 MAFFT 作为 比 对 工具 有 以 下 几 点 原因 : 需要 输 
的 参数 极 乔 ， 只 需 输 入 符 换 窃 阵 、 起 始 衬 位 前 分 GOP 和 延续 宇 位 骨 分 
GEP =A], HPR EER A BLOSUM 系列 的 三 个 算 阵 ; 
go 可 以 批量 比 对 ; 地) 比 对 结果 相对 优 于 其 他 在 线 工 具 。 实 验 数据 放置 
宣 位 罚 分 范围 分 别 为 1 生 GOP < 20, 0  GEP <È, H GOP iK 


为 1，GEP 步 长 为 0.2， 巷 换算 隆 分 别 为 BLOSUM30/BLOSUMA4S/ 
BLOSUM62， 每 一 组 序列 有 1590 个 互 不 相同 的 参数 组 合 ， 通 过 批量 
处 理 ， 得 到 全 和 面 的 比 对 结果 作为 参考 数据 库 。 图 8.3 将 比 对 结果 以 
三 维 图 呈现 出 来 ， 可 以 看 出 SPS 值 与 GOP/GEP/MATRIX 相关 ， 当 
GOP/GEP/MATRIX 取 特 定 值 时 ，SPS 达到 最 大 值 ， 即 该 序列 比 对 效 
果 最 好 。 


2. 实验 验证 


1) 实验 1. 矩阵 公式 合理 性 的 验证 

根据 式 (8.3) 判 断 替换 矩阵 是 否 适合 待 测序 列 ， 图 8.4 所 示 是 
ref1~ref3 的 三 个 矩阵 判断 图 。 其 中 ， 直 线 表示 该 矩阵 的 参考 值 
点 连 线 表示 该 矩阵 的 计算 值 ， 由 式 (8.4) 知 ， 当 点 连 线 位 于 直线 下 方 
时 ， 该 矩阵 符合 序列 比 对 要 求 ， 若 点 连 线 在 直线 上 方 时 ， 该 矩阵 不 
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能 用 于 序列 比 对 。BLOSUM45 和 BLOSUM62 ff] max(S,, ) 相等 ， 所 
以 它们 的 计算 值 是 重合 的 。 通 过 图 8.4 可 以 看 出 BLOSUM30 不 能 
满足 大 多 数 序列 的 比 对 要 求 ，BLOSUM45 和 BLOSUMG2 基本 满足 
比 对 要 求 。 


图 8.3 序列 比 对 SPS/GOP/GEP/MATRIX 三 维 图 


refi matrix verification 


—*— BLOSUM30 calc 
— — BLOSUM30 reference 
BLOSUMAS calc 
BLOSUMAS reference 
BLOSUM62 calc 
BLOSUM6e? reference 


0 10 20 30 40 90 60 170 80 


图 8.4 ”替换 矩阵 合理 性 的 判断 图 
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ref2 matrix verication 


一 六 一 BLOSUMSO calc 

— — BLOSUMSO reference 

— O— BLOSUMAa5 calc 

——— BLOSUMMd5 reference 

——e—— BLOSUMG2 calc 
BLOSUMSGe reference 


ref3 matrix verification 


一 六 一 BLOSUMSO calc 

— — BLOSUMSO reference 

— O— BLOSUM4S calc 

———— BLOSUMAd65 reference 

— *— — BLOSUMG2 calc 
BLOSUMGe? reference 


图 8.4 THÁXABP- HEPER AI BER (C) 
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ER 8.1 中 统计 了 图 8.4 中 三 个 奉 换 拭 阵 符合 比 对 要 求 的 次 数 ， 
可 以 看 出 BLOSUMAS 能 满足 绝 大 多 效 序列 的 比 对 要 求 ， 因 此 本 书 
以 BLOSUM45 作为 最 佳 瑟 换 和 矩阵 ， 以 下 所 有 实验 数据 均 以 
BLOSUMAS 为 准 。 


R81 THREE UI 


Sequence set | ref1-Test1 | ref1-Test2 | ref1-Test3 ref3 


Sequence 
«100 100—300 2300 50—600 | 60— 600 
Length(bp) 


BLOSUMS30 
Qualified 
number 
BLOSUMAS5 
Qualified 
number 
BLOSUM62 
Qualified 


number 


Correct | | 
78% 79% 75% 60% 83% 
rate 


IERT IRAE BE BLOSUM45 


2) 实验 2: GOP 公式 的 验证 

对 于 空位 罚 分 的 取 值 公式 (8.6) 和 (8.7) 进 行 验证 , 如 图 8.5 所 示 ， 
其 中 最 佳 GOP 是 图 8.3 中 最 大 SPS 对 应 的 GOP 值 。 从 图 8.5 可 以 
看 出 : 

(1) SR HEREN BLOSUM45 矩阵 时 ， 计 算 的 GOP 曲线 与 最 
佳 GOP 曲线 最 为 贴近 ， 即 BLOSUMAS 计算 效果 最 好 。 
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(2) 当 GEP = GOP/5 即 n=5 时 ，GOP 计算 值 与 最 佳 GOP 值 最 为 


贴近 。 


refl GOP verification 


OgIN'ISO18 


StyANPmso19 


OP 


E 


cgn Sog 


ref2 GOP verification 


十 i o 
08 失 站 SO 日 


SrNNSOTNg 


a 
Q 
v 
UD 
o 
"e 


2e9INnso18 


l8. GOP/GEP 公式 验证 图 
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ref3 GOP verification 


BLOSUMSO 


BLOSUMAS5 


BLOSUM62 


Kl8.5 GOP/GEP 公式 验证 网 ( 续 ) 


3) 实验 3: 最 优 参数 合理 性 的 验证 
根据 上 面 两 个 实验 可 以 得 到 一 组 固定 参数 : w=0.5, 8=0.9,n=5, 
登 换 窍 阵 是 BLOSUM45$。 其 他 的 参数 与 序列 相关 ， 其 中 ，4 是 每 条 
序列 中 起 始 衬 位 个 数 与 总 空位 数 num 的 比例 ， 罕 位 个 数 
num „ 二 JNT(0.2.1em)， 所 以 4 与 该 序列 的 长 度 有 关 。 通 过 数据 分 
析 ， 发 现 当 序列 长 度 <100bp 时 (定义 为 短 序列 )，4=3; = 100bp< 
序列 长 度 <300bp 时 (定义 为 中 序列 )，4=4; 当 序 列 长 度 >300bp 时 
(定义 为 长 序列 )，4=5 ， 即 序列 长 上 度 越 长 ， 名 越 大 ， 这 样 的 设 定 可 
以 取得 最 好 的 效果 。 这 个 规律 表示 当 序 列 长 度 增 长 时 ， 起 始 空 位 的 
个 数 增长 受到 一 定制 约 , 不 会 增加 得 太 多 ,连续 空位 分 布 较为 集中 ， 
更 符合 多 序列 比 对 的 生物 特性 。 其 他 的 参数 也 是 根据 能 达到 最 大 
SPS 值 的 要 求 设 定 的 。 在 表 8.2 中 整理 了 refl~ref3 的 最 优 权重 系数 ， 
并 附 上 序列 信息 。 根 据 表 82 中 的 最 优 权重 系数 计算 出 最 优 参 数 
GOP/GEP/MATRIX, MBI 8.3 的 参考 数据 库 中 找 出 对 应 的 SPS 值 ， 
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并 与 MAFFT 和 CLUSTALW ZA 2 ZUABESEIBHJ SPS 但 进行 对 比 ， 
曲线 对 比 效果 见 图 8.6。 

通过 表 8.2 和 图 8.6 可 以 得 到 以 下 结论 : 

(D) 根据 序列 长 度 ，refl 分 为 短 中 长 三 个 test，4 的 取 值 与 序列 
长 度 密切 相关 ，re 包 和 ref3 的 序列 长 度 疫 有 明显 分 类 ， 有 短 厅 列 ， 也 
4 rBd«HE) MES ref2 和 re 时 根据 其 具 LEBER EBEUAEA. 

(2) 将 最 优 参数 对 应 的 SPS 与 MAFFT 默认 参数 的 SPS 值 进行 
横向 比较 ， 最 优 参 数 所 得 的 SPS 值 绝 大 多 数 超 过 默认 值 ， 说 明 最 优 
参数 对 多 序列 比 对 有 优化 作用 。 


表 8.2 最 优 权重 系数 表 


Sequence — 
set 


refl 
test2 100—300 
refl | 


re DT1CCOGEONECONNOHE 77% | 与 长 度 相 关 | 0.05 
re m [ow] o ERN ERN 60% | 与 长 度 相关 | 0.02 


eñ venfication 
y i 


图 8.6 ”最 优 参 数 计 算 值 与 MAFFT 堵 认 值 的 比较 图 
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ref2 
SPS 


di ——*— — default value 


ref3 
SPS 


— G-— calculated value 


(c) 
图 8.6 ”最 优 参 数 计 算 值 与 MAFFT SA BUT] Ee EE (E) 


815 结论 


本 市 应 用 MAFFT 工具 解决 多 序列 比 对 问题 ， 为 了 得 到 更 好 的 
比 对 结果 ， 在 比 对 过 程 中 据 弃 党 用 的 默认 参数 ， 致 力 于 寻找 一 组 最 
优 参 数 。 基 于 SP 目标 函数 ， 提 出 了 明确 的 目标 函数 参数 理论 依据 ， 
给 出 替换 矩阵 的 判断 公式 和 空位 公分 最 佳 取 值 公式 ， 并 应 用 
BAlBASE2.0 数据 库 实 例 从 蔡 换 矩阵、 衬 位 前 分 和 与 默认 值 横 回 比 
较 这 三 个 角度 验证 公式 的 合理 性 。 实 例证 明 最 终 的 比 对 结果 强烈 依 
HF SP 目标 函数 的 参数 包括 替换 矩阵 和 罕 位 间 分 , 一 组 好 的 参数 会 
得 到 一 个 好 的 比 对 结果 。 根 据 竺 测序 列 的 长 度 条 数 相似 度 等 信息 代 
入 本 节 公 式 可 以 得 到 最 合适 的 起 始 空位 因 分 、 延 伸 衬 位 加 分 和 替换 
年 阵 。 实 验 结果 表明 ， 通 过 本 节 的 公式 ， 应 用 MAFFT 工具 ， 可 以 
获得 更 高 的 精度 校准 ， 并 获得 更 优质 的 比 对 结果 。 这 项 研究 将 优化 
多 序列 比 对 算法 ， 并 提供 多 序列 比 对 的 新 思路 。 
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在 今后 的 工作 中 ， 还 有 一 些 需 要 完善 的 地 方 : 

(1) 可 以 考虑 应 用 其 他 数据 库 的 数据 来 测试 本 节 公 式 的 合理 性 
与 通用 性 。 

D 可 以 应 用 本 节 思 路 寻找 其 他 比 对 工具 的 最 佳 参数 。 注 意 ， 
本 节 所 得 的 权重 参数 都 是 基于 MAFFT 下 产生 的 数据 ， 因 此 该 组 参 
数 仅 适 用 于 MAFFT 比 对 工具 ， 对 于 其 他 比 对 工具 不 一 定 通用 。 

(3) 可 以 考虑 其 他 的 目标 函数 和 其 他 的 替换 矩阵 ， 如 PAM AD 
或 GONNET 矩阵 。 

(4) 可 以 推导 GOP 和 GEP 更 合适 的 关系 式 ， 本 节 中 关于 GOP 
和 GEP 的 关系 定位 较为 粗糙 ， 仅 根据 GOP>GEP 定位 为 倍数 关系 ， 
事实 上 ， 应 该 会 有 别 的 更 恰当 的 关系 式 有 待 推导 。 

希望 通过 以 上 的 思路 提高 公式 的 通用 性 ， 更 进一步 提高 多 序 
列 比 对 的 质量 。 


8.2 ”在线 工具 MAFFT 参数 研究 


821 引言 


多 序列 比 对 是 生物 信息 学 中 最 基本 的 应 用 工具 ， 其 在 和 集 白质 结 
爸 预 测 分 析 、 基 因 识 别 、 构建 生物 进化 树 等 领域 中 都 有 厂 泛 的 应 用 。 
它 是 一 个 NP 完全 问题 ， 随 看 序列 长 上 度 和 条 数 的 增多 ， 时 容 复 多 
急剧 上 升 ， 如 何 设 计 一 个 具有 蜗 精 上 度 、 局 速度 且 低 复杂 上 度 的 多 序列 
比 对 算法 成 为 生物 信息 学 中 非常 具有 挑战 性 的 一 个 重要 课题 。 

多 序列 比 对 有 两 个 重要 的 参数 : 和 奉 换 矩阵 和 至 位 刘 分 (包括 起 始 
宝 位 和 延续 空位 )。 有 很 多 学 者 相继 讨论 过 这 些 参数 ， 如 Thompson 
等 根据 序列 的 进化 距离 选用 不 同 的 符 换 和 矩阵， 考虑 杀 水 残 基 ， 提 出 
特定 残 基 位 置 的 空位 罚 分 (1994); Reese, J. T 和 Pearson, W. R (2002) 
讨论 了 多 序列 比 对 中 PAM 矩阵 的 PAM 距离 与 空位 罚 分 的 关系 式 ; 
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Madhusudhan, M. S 等 (2000) 应 用 动态 规划 算法 根据 序列 结构 捉 出 可 
WDA VGP。 但 是 这 些 公 式 并 没有 被 广泛 应 用 ,说明 它们 不 具 
有 通用 性 ,Gondro, C 和 Kinghom, B. P(2007) 认 为 空位 罚 分 参数 仍然 
赁 经 验 给 出 ， 如 何 确 定 最 佳 的 参数 至 今 没 有 理论 框架 ， 因 此 当前 大 
多 数 文献 的 目标 图 数 参数 仍然 及 用 经 验 全 (Dan, D. B 和 Kececioglu, J. 
2015). 
当前 有 很 多 学 者 根据 多 序列 比 对 的 原理 开发 了 非常 方便 好 用 的 
开源 在 线 比 对 工具 , 如 CLUSTALW、T-Coffee、MAFFT 等 (Katoh, K 
和 Toh, H, 2008)， 应 用 这 些 比 对 工具 能 快速 得 到 较 好 的 比 对 结果 ， 
成 为 当前 多 序列 比 对 最 常用 的 比 对 方式 。 但 是 ， 这 些 结果 对 空位 记 
分 与 计 分 矩阵 等 参数 的 依赖 性 很 强 , 不 同 参 数 下 得 到 的 结果 不 一 样 ， 
绝 大 多 数 用 户 在 应 用 这 些 比 对 工具 时 使 用 单一 的 默认 参数 ， 这 些 默 
认 参 数 虽然 能 得 出 较 好 的 比 对 结果 ， 但 未 必 是 最 好 的 比 对 结果 。 田 
外 ， 目 前沿 没有 有 效 的 方法 直接 确定 最 优 参 数值 ， 故 很 难 直 接 通 过 
在 线 工具 得 到 局 部 最 优 解 。Pais, S. M 等 (2014) 总 结 了 各 种 常用 的 多 
序列 比 对 方法 和 工具 的 比 对 效率 ， 如 CLUSTALW、CLUSTAL 
OMEGA, DIALIGN-TX, MAFFT. MUSCLE, POA, Probalign. 
ProbCons 和 T-Coffee, iA 7J T-Coffee 和 MAFFT 可 以 更 快速 局 效 地 
比 对 序列 。Nuin, P. A. Wang, Z 和 Tillier, E. R (2006) 比 较 这 9 种 常用 
比 对 工具 : CLUSTALW、Dialign2.2、T-Coffee、POA、MUSCLE、 
MAFFT、ProbCons、Dialign-T 和 Kalign， 并 得 出 下 面 结论 : 9 种 比 
对 软件 中 ，MAFFT 的 友 代 方法 (L-INS-D0 和 ProbCons 工具 始终 是 最 
准确 的 ， 并 且 MAFFT 是 两 者 中 较 快 的 比 对 工具 。Ahola, V 等 20006) 
提出 了 基于 一 种 统计 分 数 来 评估 多 序列 比 对 的 结束 ， 以 BAliBASE 
作为 标准 数据 库 , 比较 了 7 种 比 对 方法 的 AQ 得 分 , 结果 表明 , MAFFT 
的 L-INS-i 方法 优 于 其 他 方法 。 他 们 的 权威 结论 都 被 归纳 在 MAFFT 
官方 网 页 中 。 多 序列 比 对 的 计算 效率 需要 综合 考虑 速度 和 精 废 ， 
MAFFT 议定 FFT-NS-2 HUIR IA, Am. BARNEN 
高 速 发 展 ， 多 序列 比 对 的 重心 也 从 追求 高 速度 转 为 追求 高 精度 ， 
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此 本 研究 以 MAFFT 作为 比 对 工具 ， 试 图 寻找 蔡 换 窍 阵 、 至 位 划分 
及 迭代 算法 的 最 优 参数 组 合 ， 以 得 到 高 精度 的 比 对 结果 。 

通 第 使 用 手工 或 半 目 动 的 序列 数据 库 评 估 比 对 工具 的 精确 上 度 ， 
如 BAIlIBASE(Thompson, J. D 等 ,2005)、PREFAB 和 SABmark (Walle, 
L V 等 ，2004)。 目 前 为 止 ，BAIliBASE 是 最 普遍 使 用 的 数据 库 ， 它 
是 基于 已 知 的 三 维 结构 的 重 日 质 序 列 和 模型 来 构造 的 序列 数据 库 。 
本 研究 选用 最 新 版 本 的 BALiBASE3.0 数据 库 作 为 实验 测试 对 象 和 评 
价 标准 。 


8.2.2 基本 定义 
1. 多 序列 比 对 问题 及 数学 描述 


二 条 长 度 为 上 的 序列 是 下 个 字符 组 成 的 字符 串 ， 字 符 取 目 于 字 
REK {A, V, L, L F, P, M, S, T, C, W, Y, N, Q, D, E, K, R, H, G}, 分 别 代 
表 重 白质 的 二 十 个 氨基 酸 残 基 类 型 。 对 于 重 日 质 友 列 ， 给 定 包 仿 N 
个 序列 的 序列 集 S={5,S,,…,Sy}, N=2, $ = $,5,- S0 i X N), 
$,€ 3, ASISI 1 是 第 i 条 序列 的 长 度 , 则 一 个 序列 比 对 可 定义 


为 一 个 矩阵 4=(a,), 其 中 1<i<N,1< JXIL max() SIS 30 : 
HORE A AE PEL T ARTE: 
(D ae >》U{ 一 ， 其 中 “一 ”代表 空位 。 


(2) 滤 阵 中 的 第 i 行 去 挥 “ 一 ”后 ， 即 得 到 季 从 串 S,。 
(3) ERDER TIE ETEY. 


2. MAFFT 比 对 工具 


MAFFT 比 对 工具 起 初 是 为 了 执行 大 规模 序列 比 对 而 发 展 起 来 的 ， 
它 是 一 种 基于 快速 全 里 叶 变 换 (FFT) 的 组 对 组 的 比 对 算法 ， 并 且 它 使 用 
一 种 近似 距离 计算 方法 (6mer 方法 ) 便 于 进行 快速 计算 。 为 了 提高 多 
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序列 比 对 结 来 的 精度 ， 以 及 随 看 序列 距离 相似 度 的 增加 ，2005 年 ， 友 
布 了 MAFFT 版 本 5，2008 年 和 2013 年 相继 发 布 了 MAFFT 版 本 6 和 
MAFFT 版 本 7。 

MAFFT 提供 了 多 种 多 厅 列 比 对 策略 , 这 些 比 对 策略 可 以 划分 成 
= KX: 渐进 方法 (the progressive method)、 基 于 WSP rZ 
化 方法 (the iterative refinement method with the WSP score) 和 基于 
WSP Ai—S E^) 23 JA TV 571 iA(the iterative refinment method 
using both the WSP and consistency scores), W 8.3 所 示 。 通 种 ， 
MAFFT 开 上 略 需 要 在 速度 和 精度 之 间 折 中 考虑 ,上 述 三 类 方法 的 速度 
WIRE DA VUES BEA OOB 

MAFFT HUSA P : ERIS IA Æ FFI-NS-2. GOP z& 1.53, 
GEP 7€ 0.123, 4R PE ZS BLOSUMG2. 


A 8.3 MAFFT 算法 分 类 及 说 明 
说 明 


速度 比 默认 参数 快 2 们 
浙 进 方法 


在 渐进 方法 和 基于 WSP PAER 
细 化 方法 类 别 中 速度 最 快 的 算法 ， 使 
用 WSP 打分 方法 


使 用 6mer 方法 计算 厅 列 之 间 的 距离 
— WSP 和 一 致 性 打分 方法 进行 局 


AT) AREE WSP 和 
一 致 性 打分 方法 进行 局 部 比 对 基于 
PEE XL 记分 


使 用 WSP 和 一 致 性 打分 方法 进行 全 
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基于 WSP 分 数 的 迭代 | FFT-NS-I 
细 化 方法 


基于 WSP 和 一 致 性 分 
数 的 迭代 细 化 方法 
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8.2.3 实验 结果 与 分 析 
1. 实验 设计 


为 了 对 数据 进行 统一 旦 精确 的 比较 ， 本 节 以 BAliBASE3.0 数据 
JÆ refl —ref3 共计 113 组 序列 秘 作 为 测试 对 象 ， 因 为 该 数据 库 中 的 
参考 序列 均 是 手工 比 对 ， 结 来 更 上 其 有 生物 特性 ， 成 为 测试 算法 的 毅 
用 数据 库 之 一 ， 见 表 8.4。 应 用 该 数据 库 的 SPS 打分 函数 作为 统一 
的 比 对 评价 标准 ，SPS 分 人 表示 残 基 对 准确 对 齐 的 比率 ，SPS 值 越 
局 ， 说 明 比 对 的 结果 越 接 近 于 参考 序列 ， 比 对 效 末 越 好 。 


表 8.4 BAIiBASE3.0 中 的 数据 集 


数据 集 RV11 | RV12 | RV20 | RV30 | RV40 | RV50 
序列 的 人 数 | os | as | ar | 3 [ ds | 1 


实验 数据 设置 MAFFT 在 线 工 具 的 GOP 范围 为 0 一 3，GEP 可 
UARA.. ATE VER AUSE. VEMM ^2 $1 2) 3) 2j 


0.5 X GOP x3, 0.03 «SU. . H gop A 01, GEP 步 


KÆ 0.03, 在 BLOSUM30/BLOSUMAS/BLOSUMG62/BLOSUM80/ 
PAMIO0/PAM200 中 选择 巷 换 矩阵 ， 每 一 组 序列 有 692 个 互 不 相同 
的 参数 组 合 ， 通 过 批量 处 理 ， 得 到 全 和 面 比 对 结果 的 SPS fHTE2J R25 
数据 奋 。 图 8.7 将 所 有 的 比 对 结 未 以 三 维 狗 呈现 出 来 。 可 以 看 出 ， 
SPS fH. GOP/GEP/MATRIX fH, 当 GOP/GEP/MATRIX 取 符 定 值 
时 ，SPS 达到 最 大 值 ， 即 该 序列 比 对 效果 最 好 。 


2. 实验 验证 


1) 实验 1: MAFFT ARIANA EE ERE PEHI rii 2 
根据 表 8.3 € T MAFFT 算法 的 介绍 , 这 里 选择 精度 最 高 的 三 种 
EREE L-NS-VE-NS-I/G-NS-I. 


P 
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Refl SPS 


RV TI RV12 END 


GEP P 56 ggp 00 


图 8.7 SPS KZU F GOP/GEP/MATRIX) 


jx RR UH F: 

(1) 对 于 BAliBASE3.0 的 每 一 组 序列 ， 分 别 计算 三 种 迭代 算法 
六 种 蔡 换 和 矩阵 在 默认 值 GOP-1.53, GEP-0.123 的 SPS. 

(2) 每 一 种 组 合 下 的 SPS 平均 值 命名 为 meanSPS， 例 如 RVII 
共有 67 组 序列 复 ， 当 比 对 参数 为 : L-NS-V/BLOSUM30/GOP- 
1.53/GEP=0.123 时 ， 可 以 得 到 67 个 比 对 结果 ， 即 有 67 个 SPS fü. 
计算 SPS 的 平均 值 为 meanSPS=0.5132。 其 他 数值 以 此 类 推 。 

(3) 统计 每 一 种 迭代 算法 下 meanSPS 的 总 和 ， 则 每 一 组 序列 可 
以 得 到 三 个 值 , 这 三 个 值 的 最 大 值 对 应 的 迭代 算法 认为 是 最 优 算法 。 

(4) 在 每 一 种 迭代 算法 下 六 个 沧 阵 分 别 比 对 , 因此 得 到 六 组 SPS 
值 , 定义 达到 最 大 SPS 值 的 个 数 为 maxSPSnum. 例如 RV11 共有 67 
HJJ, 在 L-NS-I 友 代 算 法 时 ， 每 一 组 序列 都 有 6 个 SPS 值 ， 分 
别 对 应 于 6 个 蔡 换 矩阵 ， 统 计 取 得 SPS 最 大 值 所 对 应 的 矩阵 个 数 ， 
67 组 序列 中 有 9 组 序列 以 BLOSUM30 为 替换 矩阵 的 SPS Ec Hf 
阵 的 SPS 值 高 ， 则 maxSPSnum-9. 

(5) 从 最 优 的 友 代 算法 中 选择 前 两 名 maxSPSnum XJ NV AB BENE 

最 优 算法 与 最 优 和 矩阵 如 表 8.5 所 示 ， 并 归纳 总 结 在 表 8.6 H. 
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表 8.5 SPS 的 各 类 统计 值 ( 基 于 不 同 的 MAFFT 算法 和 替换 矩阵) 


5i E- DE BE WE SE NE FRV50 


"E 513 hal pat a a e pade 07407 
mee n Doni n han sched x ul x hun v sn 
afe fesef e feeste be EN SS ERIS ENS us 

PAMIOO De es 12 e 5 bes 8535 10. o769| 8 T'ES 0.7423 


[s] "EYTUDTDE-D- 
m: sorg — Sis [asosa] hos — 44617 
96 fo SE ESAE T EN 07374 
AmE 084 21 |08545 14 |07705| 10 |06734| 2 [oms 
a [1s os TEES KENNT: 11 (0.7469 
15 |05254| 19 Jos369 16 losso 11 |o7668| 14 oo729| 8 [07455 
Te 0.5124 peat s fosst s oras ees- 0.7375 
829; 10. 085o 5 |o7so 4 loser 2 0.7341 
Lbs je pep emp ded je 


LC lh b be mel e fe 44351 


A 98.6 MEARE A S IERA E 


数据 集 RV11 RV12 RV20 RV30 RV40 RV50 


AERE BLOSUMA5, | BLOSUMS3O0, | BLOSUMAS, BLOSUM45, 
BLOSUMSOÓ |BLOSUM45 |BLOSUM62 |BLOSUMA5 |BLOSUMSO |BLOSUM62 


ARESA |G-NS-I L-NS-I L-NS-I G-NS-I L-NS-I L-NS-I 
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2) 实验 2: 最 优 参 数 GOP/GEP/MATRIX 的 确定 

确定 最 优 参 数 的 思路 如 下 : 

(1) 根据 表 8.6 的 最 佳 算 法 与 最 佳 奉 换 窍 阵 ( 两 个 候选 )， 按 照 实 
验 数 据 设置 ， 得 到 每 一 组 序列 的 692x2 个 SPS 数据 。 

(2) 统计 两 个 奉 换 矩阵 所 对 应 的 数据 ， 通 过 比较 SPS 最 大 值 ， 
二 者 中 选 优 痢 为 该 组 序列 的 最 佳 矩 阵 。 

(3) 定义 两 个 参数 : 

(D maxSPSnum 表示 在 该 GOP/GEP 下 的 SPS 值 =SPS 最 大 值 
的 个 数 ， 意 义 是 该 值 越 大 ， 则 在 该 GOP/GEP 下 的 可 以 达到 最 好 比 
对 效果 的 序列 越 多 。 例 如 ，RV11 共 67 组 序列 复 ， 每 一 组 有 692 个 
GOP/GEP 组 合 ， 对 应 了 692 个 SPS 值 ， 求 出 每 一 组 的 最 大 SPS fü. 
BI RV11 共有 67 个 maxSPS。 有 6 组 序列 在 GOP/GEP-2.9/0.6 的 SPS 
值 等 于 maxSPS， 则 maxSPSnum=6。 

(2 meanSPS 表示 在 该 GOP/GEP 下 SPS 的 平均 值 , 意义 是 该 值 
越 大 ， 则 在 该 GOP/GEP 下 的 整体 比 对 效果 越 好 。 例如 ，RV11 共 67 
组 序列 复 ， 每 一 组 有 692 个 GOP/GEP 组 合 ， 即 每 个 GOP/GEP 组 合 
有 67 个 SPS fli, ?4 GOP/GEP=2.9/0.6 时 ， 将 该 组 合 下 的 67 个 SPS 
SKA, ERDA 67， 可 得 平均 全 meanSPS-0.5595, 

(4) 根据 这 两 个 参数 ， 得 出 GOP/GEP 的 候选 值 与 对 应 的 
meanSPS 和 maxSPSnum， 统 计 在 表 8.7 中 。 

(5) 综合 考虑 这 两 个 参数 ， 人 确定 最 优 GOP/GEP， 如 表 8.7 rp. 

(6) 将 所 有 的 最 优 参 数组 合 总 结 在 表 8.8 F. 


表 8.7 GOP/GEP 与 对 应 的 meanSPS 和 maxSPSnum 


| e 
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RV11 
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( 续 表 ) 
RV12 
RV20 
1.08 4 
RV30 0.75 3 
RV40 1.26 0.649 2 


© 


0.39 0.6818 
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表 88 最 佳 参数 表 


数据 集 RV20 RV40 RV50 
和 矩阵 BLOSUM62 BLOSUM45 


3) 实验 3: 最 优 参 数 合理 性 的 验证 

图 8.8 给 出 了 三 种 算法 得 出 的 数据 集 的 SPS 数值 ，maft measure 
表示 由 表 8.8 归纳 出 的 最 佳 参数 得 出 的 SPS 分 但, mafft default 表示 由 
MAFFT 工具 的 默认 参数 (MAFFT7.220-WIN64) 得 出 的 SPS 分 值 ， 
clustalw default 表示 由 CLUSTALW  L.H I] SA 3A fH (CLUSTALW- 
2.1-WIN) 得 出 的 SPS 分 数 。 表 89 统计 了 三 种 算法 的 SPS 平均 值 ， 从 
图 8.8 和 表 8.9 中 可 以 得 出 如 下 结论 : WMAFFT 默认 值 算出 的 SPS 值 
大 部 分 都 局 于 CLUSTALW AMERI SPS; 已 最 优 参 数 对 应 的 SPS 值 
局 于 MAFFT 默认 值 的 SPS. 说 明 表 8.8 得 出 的 MAFFT 工具 最 优 参数 
的 比 对 效果 最 好 。 因 此 ， 最 优 参 数值 优化 了 多 序列 比 对 的 结果 。 


pp 


(EK) 
数据 集 maxSPSnum 
RV50 0.69 2 

E 
EN 
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mafft. measure mafft. default 


gn 
Q 
aD 
0 10 20 30 40 
HV11 sequence 
gn 
a 
aD 
0 10 20 30 40 50 60 
HV12 sequence 
aD 
a 
(ep) 
0 10 20 30 40 50 60 
HV20 sequence 
hd 
T 
" 
T 
u) 
A 
T 


0 5 10 15 20 
RV50 sequence 


图 8.8 不 同 算 法 下 的 SPS {Ë 
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clustalw default 
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表 8.9 ”最 优 参数 的 SPS 与 MAFFT/CLUSTALW 默认 值 的 SPS 比较 


数据 集 RV11 | RVI2 | RV20 | RV30 


FFT-NS-2 默认 值 -SPS 
0.4582 | 0.8142 | 0.8301 | 0.737 
4518 
L-NS-I 默认 值 -SPS 
0.545 | 0.838 | 0.8583 | 0.7686 | 0.6745 | 0.7466 
34548 
E-NS-I 默认 值 -SPS | | | 
0.5338 | 0.836 | 0.8562 | 0.7695 | 0.6708 | 0.7469 
34548 


CLUSTALW 默认 值 -SPS 

0.4758 | 0.7966 | 0.85077 | 0.6802 | 0.5917 | 0.6377 
平均 值 
CALC 计算 值 -SPS 

0.5912 | 0.8465 | 0.8594 | 0.7685 
平均 值 
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KPAH MAFFT 工具 解决 多 序列 比 对 问题 ， 为 了 得 到 更 好 的 
比 对 结果 ， 在 比 对 过 程 中 据 弃 音 用 的 默认 参数 ， 致 力 于 寻找 最 优 的 
一 组 参数 。 应 用 BAliBASE3.0 数据 库 实例 从 蔡 换 和 矩阵、 空位 罚 分 和 
与 默认 值 横向 比较 这 三 个 角度 验证 公式 的 合理 性 。 实 例证 明 最 终 的 
比 对 结果 高 度 依 赖 于 比 对 参数 包括 蔡 换 矩阵 和 空位 罚 分 ， 一 组 好 的 
参数 会 得 到 一 个 好 的 比 对 结果 。 实 验 结 果 表 明 ， 通 过 本 市 的 最 优 参 
数 ， 应 用 MAFFT 工具 ， 可 以 获得 更 高 的 精度 校准 ， 并 获得 更 优质 
的 比 对 结果 。 这 项 研究 将 优化 多 序列 比 对 算法 ， 并 提供 多 序列 比 对 
的 新 思路 。 

在 今后 的 工作 中 ， 还 有 一 些 需要 完善 的 地 方 : 中 可 以 考虑 应 用 
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其 他 数据 库 的 数据 来 测试 本 书 公 式 的 合理 性 与 通用 性 。 忆 可 以 应 用 
本 书 思 路 寻找 其 他 比 对 工具 的 最 住 参 数 。 注 总 ， 本 书 所 得 的 最 优 参 
WABA F MAFFT 下 产生 的 数据 , 因此 该 组 参数 仅 运 用 于 MAFFT 
比 对 工具 ， 对 于 其 他 比 对 工具 不 一 定 通用 。 


8.3 "7k 


本 章 从 两 个 角度 研究 多 序列 比 对 的 参数 问题 。 首 先 ， 基 于 SP 
目标 函数 ， 提 出 了 明确 的 目标 函数 参数 理论 依据 ， 给 出 蔡 换 矩阵 的 
判断 公式 和 衬 位 间 分 最 佳 取 值 公式 ， 并 应 用 BAIiBASE2.0 数据 库 实 
例 从 替换 矩阵 、 衬 位 罚 分 和 与 默认 值 横 癌 比较 这 三 个 角度 验证 公式 
的 合理 性 。 实 例证 明 最 终 的 比 对 结果 强烈 依赖 于 SP 目标 函数 的 参 
数 ， 包 括 蔡 换 矩阵 和 空位 罚 分 ， 一 组 好 的 参数 会 得 到 一 个 好 的 比 对 
结果 。 根 据 待 测 序列 的 长 度 条 数 相似 度 等 信息 代入 相应 公式 可 以 得 
到 最 合适 的 起 始 空位 罚 分 、 延 伸 空 位 罚 分 和 替换 矩阵 。 实 验 结果 表 
明 ， 通 过 本 章 的 公式 ， 应 用 MAFFT 工具 ， 可 以 获得 更 高 的 精度 校 
准 ， 并 获得 更 优质 的 比 对 结果 。 这 项 研究 将 优化 多 序列 比 对 算法 ， 
并 提供 多 序列 比 对 的 新 思路 。 

另外 ， 应 用 在 线 MAFFT 工具 进行 多 序列 比 对 时 ， 寻 找 最 优 的 
一 组 参数 。 应 用 BABBASE3.0 数据 库 实 例 从 替换 和 矩阵、 空位 罚 分 和 
与 默认 值 横向 比较 这 三 个 角度 验证 公式 的 合理 性 。 实 例证 明 最 终 的 
比 对 结果 高 度 依 赖 于 比 对 参数 包括 替换 矩阵 和 空位 罚 分 ， 一 组 好 的 
参数 会 得 到 一 个 好 的 比 对 结果 。 实 验 结果 表明 ， 通 过 本 文 的 最 优 参 
数 ， 应 用 MAFFT 工具 ， 我 们 可 以 获得 更 高 的 精度 校准 ， 并 获得 更 
优质 的 比 对 结果 。 
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附录 相关 的 产 代 码 


附录 A ”基本 遗传 算法 总 程序 


clearall 
tic; $25 vr 32 11 Ih] [HJ 


NUM ge-1; % 全 部 大 循环 ， 计 算 儿 次 


NUM Individual-50; LUE S d 
eli rate-0.1; % 你 留 精 央 个 体 10S 
cross rate-0.6; SAE XE 
mutation rate-0.1; Ar E RES 
unimprove-500; $g 不 变 最 大 次 数 ! 


besttseq-cell(1,NUM ge); 
seqtit-cell(1,NUM ge); 


N 


mieg- segrel { 4210 FOLLJBSE 'Jj3 $2225 ys y] 
se-load('sequence bio var 50.mat'); 


s 从 存储 种 群 个 体 的 文件 中 读 取 个 体 


% 全 体 大 循环 ， 以 便 统计 多 次 运算 结果 的 最 优 值 /平均 值 等 数据 
for seqi-1:NUM ge 


E 进化 算法 在 生物 多 序列 比 对 中 的 应 用 n, 


% 计 算 所 有 个 体 的 适应 度 值 

for 1-1:NUM Individual 

rrEvalue[i1)-Fitness arrLinedsp SpssS ECSÍISOC.I1hILDODT31]; 
mseq): 


end 


SIUE 
oldpop-se.initpop: 
oldfitvalue-fitvalue; 


num iteration-2000; o Ig KERIA 


$JT ARIA 


for gi-l:num iteration 


[newpopl,eli Individual]-selection (oldpop,oldfitvalue,eli 
rate); 选择 操作 

newpop2-struct tsshorafftcrossover4to2(newpopl,cross 
rate,mseq): . $45 X RE 

newpop3-struct newafimutation(newpop2,mutation rate); 

s 变 开 操作 

[rm,rn]-size (newpop3):; 


[em,en]-size(eli Individual); 


S E r PAF 
for 1-1:NUM Individual 
if i«-rn 
newpopíij-newpop3lij; 
% 参 与 壮 传 操作 的 种 群 赋值 给 下 一 代 
else 
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newpopíij-eli Individual[i-rn]j; 
% 精 英 直接 复制 到 下 一 代 
end 
newiitvalue(i)-fitness atfinedsp spss tcs(newpoplij, 
mseq):; 


end 


oldfitvalue-2newfitvalue; exer V. PEL E EENE 
oldpop-newpop: ss 种 群 重新 赋值 迭代 
bestfitvalue4to2(gi)-max(newfitvalue); Slim Hv RET 


% 当 函数 值 unimprove 次 都 不 变 ， 则 收 为 收敛， 跳出 循环 
kb-0; 

if gi»-200 SPDR 200 REA JE AL STIACSA 

if bestfitvalue4to2(qgi)--bestfitvalue4to2 (gi-1) 
kb-kb-41; 

else 

kb-0; 

end 


end 


设置 跳出 循环 


oP 


if kb--unimprove 
break 


end 


end SIAR 


best Individual=newpop{find (newfitvalue==max (newfitvalue)) }; 
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找到 最 优 个 体 
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SUL RIA PEH 
[bm,bn]-size(best Individual): 
bestsequence-char (bm+1, bn); 


bestsequence-best Individual; 


for j-1:bn 
yu-find(bestsequence(:,]j)--bestsequence (1, 3) ): 

gs 寻找 每 一 行 和 第 一 行 相同 的 字母 

gu (j) -1ength (yu); % 统 计 当 前 列 与 第 一 行 子 母 相同 的 数目 


end 


bestsequence (bm*1,find(gu--bm))-2'*'; 
s Ul A m FU Y RES THIRULRO, WE PZUPBSER 
kx-length(find(bestsequence (bm4*1,:)-7-2'*')); 


sg%g% 输 出 数据 
站 % 输 出 收敛 代数 


seqfit{seqli}=bestfitvalue4to2:; 
输出 每 一 次 循环 的 所 有 目标 函数 值 ( 供 画 出 收敛 曲线 ) 


besttseq{seql}=bestsequence:; 
输出 有 注 匹 配 列 为 * 的 最 佳 个 体 

ksx(seqi)-kx; $ 输 出 几 个 * 
bestsps(seqi)-SPS(best Individual,mseq): 
besttcs(seqi)-TCS(best Individual,mseq): 


， 附录 “相关 的 源 代 码 i 


T(seqi)-toc; $% 统 计 运 行 时 间 
Cime L=}; 
if seqi»-2 
time (seqi)-T(seqi)-T(seqi-1);: 


end 
end % 结 束 整个 大 循环 
% 和 存储 所 有 相关 数据 


save('bestseq 45lc h cm06 lst.mat','num iter','besttseq', 


'ksx','bestsps','besttcs',' 'time', 'seqífit'); 


Mox B ÆRA bio var 


随机 插入 


SEWE EJK. HRE 
function 
initpop-bioinitilize44 (sequence set,NUM Individual) 
a-char(sequence set); 

aa=cellstr (a); 

maxlength=length (a(1,:)); 

[am,an|-^size(a); 

NUM SEQ-am; gs 定义 比 对 序列 的 个 数 

s-cell(1,NUM Individual): 

$ 4E OUBJ AR PIE AN HUIUS RH, UREAIS 76 28 P S RTI ERR PEZ 


s% 定 义 每 一 行 的 空格 数 、 空 格 倍数 和 剩余 空格 


for ii=1:NUM Individual $/^/E NUM Individual 个 个 体 


239 


E 进化 算法 在 生物 多 序列 比 对 中 的 应 用 e... 


L-ceil(maxlength-40.2*maxlength*rand); 
if L--maxlength 
L-ceil(maxlength*1.1): 


end 


b-ones(NUM SEQ,L); gs 定 义 字符 矩阵 维 数 
bb-char (b); 

bbb=char (b); % 转 化 成 字符 矩阵 
cc—-cell(NUM SEO-T1,L); 


for i1-1:NUM SEQ 
len(i)-L-length(aa(i)): $ 每 一 行 可 插入 的 空格 数 
gaplenth(i)-floor(len(i)*len(i)/L); SXE& KE 
if len(i)«-2&gaplenth (1)<2 
gaplenth (1i)-len (i); 
elseif len(i)»2&gaplenth(i)«2 
qgaplenth (1i)-2; 


end 
gap num(i)-floor(len(i)/gaplenth(i)): 
% 儿 个 连续 空格 
remainder gap(i)-mod(len(i),gaplenth(1)): 
* 不 够 连续 空格 的 剩余 空格 
re(i)-gap num(i)+1; sg 剩余 空格 的 位 置 
if gaplenth(i)-- s 如 果 没 有 连续 空格 ， 则 随机 插入 剩余 空格 


in(l)-randint(1,1,[l,L-remainder gap(í(i)-*1]): 

b(i,in(1l):in(l)-*remainder gap-1)-0; 

else% 如 果 有 有 连续 空格 

in(1)-randint(1,1,[1,floor(L/gap num(i))-gaplenth (i)+ 
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1] ); — $ 先 定位 第 一 个 连续 空格 的 位 置 


for j-2:gap num(i) 


in(j)-randint (1,1, [in(j-1)-*gaplenth(i),j*floor(L/gap num 
(i))-gaplenth(i)*1]);: FPEM Ja MITA DIESE REALE 

end 

for j-1:gap num(1i) 

b(i,in(j):in(j)*gaplenth (i)-1)-0; SELE ^U ABL O 

end 

cc(ijefindstr(b(i,:),1): sg 找 非 空 格 的 位 症 

if ccíi]--0 

[mc,ncl]-^size(ccí1]): 

rr-randperm (nc); 

br-ccíij(rr(l:remainder gap(1i))): 

b (i,br)=0; sg 在 非 空格 位 随机 插入 剩余 空格 

end 

end 


end 


% 在 每 一 行 的 非 空格 位 置 写 入 字符 ， 空 格 位 置 写 入 “-” 
m-0; 

for i1-1:NUM SEQ 

for j-1:L 

if bí(i,j)-^-1 

m-m- 1; 

b(i,]j)-7a(1i,m); 

end 

if bí(i,j)-- 
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Di.1)— ^3 
end 
end 
m-0; 


end 
bb-char (b): 


bb2-bb;  $ 产 生 个 体 和 矩阵 
bb-bbb: $4 ^BPESIASTGUETI TRA 
s(ii)-bb2:  % 定 义 初始 种 群 的 个 体 为 每 一 次 插入 空格 的 矩阵 


$ 同 一 列 部 是 空格 的 ， 删 除 此 列 

k=0:; 

for J=l:L 
cl-find(s[iij(:,3)-—-' s 


if length(c1)--NUM SEQ $ 如 果 此 列 不 全 是 空格 


K 王 长 十 ] 

s2(iij(:,k)-s(ii)](:,3): $% 将 此 列 赋 值 给 s2 
end 
end 
end 


initpop-s2; 
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IC "Enti rand var 


SEKE, R. BLA 

function 
initpop-randinitilize(sequence set, NUM Individual) 

输入 序列 

a-char(sequence set); 

aa-cellstr(a); 

maxlength-length (a (1,:)):; 

[am,an|-^size(a); 

NUM SEQ-am; g 定 义 比 对 序列 的 个 数 

s-cell(1,NUM Individual): 

8 定义 初始 种 群 为 细胞 型 数组 ， 则 每 个 元 又 个 体 可 用 字符 窍 阵 表示 


gs 定义 每 一 行 的 空格 数 、 衬 格 倍数 和 剩余 空格 
for ii=1:NUM Individual $/^/E NUM Individual 个 个 体 


L-ceil(maxlength40.2*maxlenqgth*rand);:; 
if L--maxlength 
L-ceil(maxlength*1.1); 


end 


b-zeros(NUM SEQ,L): $E X T NEAR PEER 
bb-char (b); 
bbb-char(b): s 转 化 成 字符 矩阵 
in gap=zeros (NUM SEO,L):; 
for 1-1:NUM SEQ 
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len(i)-L-length(aa(i));  $ 每 一 行 可 插入 的 空格 数 
in gap (i, :)=randperm (L); g 将 空格 的 可 插入 位 置 随机 打 乱 


gap innum-unique (in gap(i,l:1len(1))): 


s 取 前 几 个 数 作为 插入 空格 的 位 置 ， 并 排序 
bb(i,gap innum)-' '; & 5E —TTTHNCBSBUL ELE HP TEAR 
end 


% 在 每 一 行 的 非 空格 位 置 写 入 字符 
m-0; 

for 1-1:NUM SEQ 

for j-1:L 

if bbí(i,]j)-^-0 

m-m- 1; 

bb (1,j)-a(i,m): 

end 

end 

m-0; 


end 


bb2-bb: P ÆDER 
bb-bbb; sg 字符 矩阵 初始 化 进行 循环 
s{ii}=bb2; sg 定 义 初始 种 群 的 个 体 为 每 一 次 插入 空格 的 矩阵 


$ 同 一 列 部 是 空格 的 ， 删 除 此 列 

k=0; 

for j-1:L 
cl-find(síiiij(:,j3)--' ')s 
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if length(c1)--NUM SEQ  $% 如 果 此 列 不 全 是 空格 
k=k+1; 
s2(ii)(:,k)-s(ii)p(:,j): gs 将 此 列 赋 信 给 s2 
end 


end 


end 


initpop-s2; 


附录 D wR T selection 


function 
[newpop,eli lIndividual]-selection(oldpop,fitvalue,eli rate) 
s—-oldpop; 
score33-fitvalue;  $ 读 取 个 体 适 应 度 每 个 元 素 
score44-fitvalue; 

[sm,sn]|-^size(s); 
NUM Individual-sn; 种 群 中 个 体 的 数 日 
snnew-cell(1,NUM Individual): 
sc2—cell(1,NUM Individual); 
$ 选 择 最 优 的 10% 作 为 下 一 代 
ttt--l*sort(-1*score33); ”从 大 到 小 排 上 序 后 的 个 体 适 应 谋 
elitism-round(eli rate*NUM Individual): $% 精 上 风 数 为 最 优 的 10$ 
5$scc-cellí(l,elitism); 
eli Individual-cell(1,elitism); 


new-cell(1,NUM Individual-elitism); 
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SFE fi Us 
ttk-cell(l,elitism); 
[tm, tn] -size (ttt): 
ttt (tn) 7^0; 
k-0; 
for j-1:tn-1 
LT LEttTr]I^—LEET111] 

k=k+1; 
ttk[(k)-find(score33--ttt(])): 
end 
end 
[ttm, ttn|-^size(ttk):; 
for i-1:ttn 

inii) nix) |-S1:1z6 4EEE] 11J 

end 
bn-cumsum (n) ; 
an-zeros(1l,tn): 
for j-1:ttn 
if j-- 
an(1:bn(j))-^ttkíj]: 
else 
an(bn(j-1)-*1:bn(j))^ttkí]): 
end 


end 


eli Individual-s(an(1:elitism)); SJEK 
s(an(1:elitism))-[]:  $ 删 除 精英 个 体 之 后 的 种 群 


veli Individual-scc; 


, 附录 “相关 的 源 代 码 4] 


SC2 一 S; SRR PN 

score44 (an (1:elitism))=[]; SRPEN 3 IN RE 
totaltit-sum(score44(1:NUM Individual-elitism)); 
SKIE NW. BE SRI 


for 1-1:NUM Individual-elitism 
fitvalue(i)-score44(i)/totalfit; SV EL xe NL BEBE 


end 


fitvaluel-cumsum(fitvalue); Sk EVE BUR 
ms-sort(rand(1,NUM Individual-elitism)): 

gs 产生 剩余 种 群 个 体 数目 的 [0v,1] 随 机 数 

fitin-1; 

newin-1l; 

while newin«-NUM Individual-elitism 
循环 剩余 种 群 个体 数 目次 

if ms(newin)«-fitvaluel(fitin)  s 右 随机 数 小 于 此 计 概 率 


new(newin]-sc2[(fitin): s 选 择 该 位 置 的 个 体 为 下 一 代 
newin-newin-4l; 4 判断 下 一 个 个 体 
else 


fitin=fitin+1; 
SHEAR T PPS. MAAKE, E eA P 
end 
end 


newpop-new; 
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MEE Bir x hhor_crossover4to2 


function 

newpop-struct tsshhorafftcrossoverá4to2(oldpop,cross 
rate,mseq) 

new-oldpop: 

newl-new(randperm(numel (new))): 


% 打 乱 选择 后 的 个 体 排列 顺序 ， 尽 量 避 免 邻 近 两 者 相同 


[sm,sn|=size (new); 
NUM remain indi=numel (new); gs 种 群 中 个 体 的 数目 
[spm, spn|-^size (new{1}); 


NUM SEQ-spm; gs 定 义 比 对 序列 的 个 数 


gs 旭 末 参与 区 义 的 个 体 个 数 是 奇数 ， 则 调 成 俩 数 (将 最 后 的 个 体 从 交叉 候选 
中 删除 ) 

cross rnd-rand(1,NUM remain indi): 

yl-rind(cross rnd<cross rate); SA X [py 

y2—find(cross rnd»-cross rate); 

len-length(yl); 

if len»2&mod (len, 2)== s 如 条 交叉 个 体 数 目 是 奇数 
y2(length(y2)*1)-yl(len):;: g 将 最 后 的 个 体 编 亏 移 至 非 候选 中 
yl (len)=[]; ”多 从 交 文 候选 中 删除 最 后 的 个 体 编号 

end 


num cross-length(yl) /2; 4 交叉 配对 的 个 数 


parentl-cell(í(l,num cross); SA Y PIS 1g] 
parent2-cell(l,num cross); SAN Y PIS 2 初始 化 
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childl=cell (1,num cross); $6 克 义 之 后 的 子 代 1 初始 化 
child2-cell(1,num cross); S45 XL a HJ 4v 2 初始 化 


s 相 邻 两 个 进行 配对 (相当 于 随机 两 两 配对 ) 
if length(yl)»-2 
for i-20:2:length(yl)-2 
j-i/241; 确定 每 一 对 的 编号 
parentl(j)-^newl(yl(i-1)):; 
parent2 (Jj])=newl (yl (i+2) ): 


end 

end 

childl-parent1; $6 和 完 把 父 代 1 赋值 给 子 代 1 

child2-parent2; gs 先 把 父 代 2 赋值 给 子 代 2 

for ii-1:num cross % 对 所 有 交叉 对 的 大 循环 
nnl-length(parentlíii]); gs 必须 知道 第 一 个 父 代 的 列 数 
nn2-length (parent2([ii]); gs 必须 知道 第 二 个 父 代 的 列 数 


r-unidrnd (NUM SEQ): 
% 从 父 体 第 一 行 到 最 后 一 行 中 随机 选择 可 交叉 的 行 位 点 


$ 右 第 一 个 父 体 比 第 二 个 父 体 长 ， 在 第 二 个 父 体 末端 补 并 空格 并 交换 行 

if nnl»nn2 

child2[i:bi:,nun2flsnni)—' *3 
bl-child2[1i1i] (r:NUM SEQ,:): 
b2-chi1ld1í(11) (r:NUM SEO,:): 

childl([ii] (r:NUM SEQ,:)-b1l; 

chrldZirtp(E:NUM SEO, -J—DZ: 


4s ST RCMSECTS CT ARMSI&S TESTS 7I SC METRE AE EAEACTRTT 
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elseif nn2»nnl1 
childlíiij)(:,nnl41:nn2)-' '; 
bl-child2[ii) (r:NUM SEO,:): 
bzZ-childlfiiai](tEe:NUM SED, €); 
chzldilrir]ir:NUM SEO, $)—Dbi: 
child2[1ii](r:NUM SEO,:)-b2: 


SP ACMEIKE IE, HRT 
elseif nn2--7nnl 
bl-child2[1i1i] (r:NUM SEO,:): 
b2-childlíiij (r:NUM SEO,:); 
childl[iij](r:NUM SEOQ,:)-bl; 
child2[1i](r:NUM SEQ, :)-b2; 


end 
$6 同一 列 都 是 空格 的 ， 删 除 此 列 


cnnl (11)=length (childl{11}): 
cnn2(ii)-length(child2111i]): 


ckl=0; ck2-0; 
for j-1:cnnl (ii) 
CCI—ETIBOIQCBEPIOILELT(US]) —. "Ja 
if length (ccl)-^-NUM SEQ s 如 有 未 此 列 不 全 征 空 格 
Ckl-ckl-41; 
chlfii)(:,ckl)-childl(ii)(:,j): sg 将 此 列 赋值 给 ch1l 
end 


end 
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for j-1:cnn2 (ii) 
cczZ—rindichtid27i11/ 65.1) — "Ja 
itf length(cc2)--NUM SEQ 
Ck2-ck2-*1; 
ch21[11] (:,ck2)-^child211i1] (:;J):; 
end 


end 


s 根 据 适 应 度 值 选择 前 两 名 作为 子 代 
pscorel-0; 
pscore2-0; 
cscorel-0; 


CScore2-0; 


ppscorel(í(ii)-fitness affinedsp spss tcs(parentlíiij, 
mseq); 

ppscore2(ii)-fitness afftinedsp spss tcs(parent2[1i1i], 
mseq);: 

ccscorel(ii)-fitness aftfinedsp spss tcs(chlíiij,mseq): 


ccscore2(ii)-fitness affinedsp spss tcs(ch2[ii],mseq): 


gs 将 父 12 和 了 12 WE- EHF, MEME AENT 12 

a(ii,:)-[ppscorel(ii),ppscore2(ii),ccscorel(ii), 

ccscore2 (ii) ]; 

b (ii,:)-sort(a(ii,:)): 

cl-findstr(a(ii,:),b(ii,4)); gs 适应 度 第 一 名 

c2-findstr(a(ii,:),b(ii,3)); gs 适应 度 第 二 名 

if c1(1)-- %6 有 时 会 出 现 两 个 一 样 的 最 大 值 ， 则 返回 第 一 位 元 又 
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newcrossl{ii}=parent1{ii};  $% 将 父 1 IRAT 1 
elseif clí(1)^— 

newcrosslí(ii]-parent2[ii); sg 将 父 2 IRAT 1 
elseif c1 (1)== 

newcrossl{ii}=chl{ii}; sT 1 赋 给 子 1 
elseif cl(1)-- 

newcrossl(ii)-ch2[ii);: gs 将 子 28 T 1 
end 
if c2(1)-- 

newcross2[(ii]-parentl[(ii); S3 1 IRAT 2 
elseif c2(1)^— 

newcross2[iil-parent21iij; $4 将 父 2 IRAT 2 
elseif c2(1)-^- 

newcross2[(ii)-chl[(ii); gs 将 子 1 T2 
elseif c2(1)-- 

newcross2{ii}=ch2{ii}; gs 将 子 2 WAT 2 


end 


end 


SER E dI 10% 之 外 的 所 有 个 体 
new00=newl (y2):; 
for 1=] :NUM remain indi 
if i«-num cross 
new se crí[ij-newcrosslíij; 


elseif i»—-num cross-tl&&i«-2*num cross 


d 


,。 附录 “相关 的 源 代码 d 


new se crí[ij-newcross2[i-num cross]; 
else 

new se críij-new00[i-2*num crossj; 
end 
end 


newpop-new 3 e Cr; 
附录 下 MXT ver. erossover4to2 


function 
newpop-struct tssveraftcrossover4to2(oldpop,cross 
rate,mseq) 

new-oldpop: 

newl-new (randperm (numel (new) ) ) s 打 乱 选 择 后 的 个 体 排列 顺 
FF. REEL PA A TH IF] 

NUM remain indi-numel (new); $6 种群 中 个 体 的 数目 

[spm, spn|]=size (new{1}); 

NUM SEQ-spm; % 定 义 比 对 序列 的 个 数 

gapÜ-zeros(l,spn):  $jE XE E H^ 

gap-char (gap0):; 

for i-1:spn 

gap{1)="_ ~; 

end 

1 AR 22-5 Ac SCIAT SAI SD rg 2o. 则 调 成 偶数 (将 最 后 的 个 体 从 交叉 候选 

中 删除 ) 
cross rnd-rand(1,NUM remain indi); 
yl-find(cross rnd«cross rate); SAP X pi 


y2-—Lindicross rnd»—cross rate]; 


Pon 
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len=length (y1); 

if len»2&mod(len,2)--1 SWR CAP VSACH ETA 
y2(length(y2)41)-yl(1len): $ 将 最 后 的 个 体 编 写 移 全 非 候选 中 
yl (len)=[]; % 从 交叉 低 选 中 删除 最 后 的 个 体 编写 

end 


num cross-length(yl)/2; 交叉 配对 的 个 数 


parentl-cell(1,num cross); SEXIA 1 初始 化 
parent2-cell(1,num cross); SAXA 2 初始 化 
childl-cell(1,num cross): $46 X Z2 JaHJd 4X1 初始 化 
child2-cell(1,num cross); $2 X ZJHW] 4X2 初始 化 
sttl-cell(NUM SEQ,1); 

% 定 义 细胞 型 变量 ， 方 便 存储 ，4 个 序列 参与 比 对 
stt2-cell(NUM SFQ, 1); 

gs 定义 细胞 型 变量 ， 方 便 存 储 ，4 个 序列 参与 比 对 


s 相 邻 两 个 进行 配对 (相当 于 随机 两 两 配对 ) 
if length(yl)»-2 
for i-20:2:length(yl)-2 

j=i/2+1; BEBE XXII 
parent1 (J)=new1l (y1 (i+1)); 
parent? (j)=new1 (yl (i+2)); 
end 


end 


s 对 所 有 交叉 对 的 大 循环 
ror 11-1:nüm CÉOSS 
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nnl-length (parent1 {ii}); $6 必 须知 道 第 一 个 父 代 的 列 数 
nn2-length (parent2(ii]); $6 必须 知 所 第 二 个 父 代 的 列 数 


for i-1:NUM SEQ 
scCIIXTI-Lndiparentiquiai]titi; :)—" "ja 

寻找 第 一 个 父 代 非 空格 字符 的 位 轩 

nl (i)=length (stt1 {i}):; % 硼 认 第 一 个 父 代 的 尺寸 
sEEZIL]-ixpndiparent2111](i1,;:-—" “J 

% 寻 找 第 二 个 父 代 非 空格 字符 的 位 置 


end 


minn-min (nl)-1; 
$43 3k 3g)n8 RT AE SCHALE AINE T ERU PL RS Jc Jesi — T AE ERE ET 
r-unidrnd (minn); 


SMBT S gUR 7T PP BENLE PE n] Ac CIS ANZ. es 


for 1-1:NUM SEQ 


lenl(i)-length(strcat(parentlíiij(i,l:sttlíi](r)), 
parent2[iij(i,stt211i)](r)-*1:nn2))); 
交叉 之 后 不 等 长 ， 求 每 行 的 长 度 


len? (1)=length (strcat (parent21[1i1i](i,1:stt211i](r)), 
parent1{11} (i; sttl{1}(r)+1l:nni))); 


end 


maxlenl-max(lenl): 最 长 行 


Pere 
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maxlen2-max(len2); 


for 1-1:NUM SEQ 

gaplenl(i)-^maxlenl-lenl (i): SHA AU I AI 
gaplen2 (i)-maxlen2-len2 (i); 

if gaplenl (1)>0 


childil{ii] {1 1s=streaLtiparent li11 LSLEELTL TIE 
gap(l:gaplenl(1)),parent21[11](1,stt211j (r) *1:nn2)):; 
在 区 义 处 位 齐 空格 百 全 等 长 

else 
childlí[iij(i,:)-strcat(parentl1[iij](i1,1:sttl1í1] (r)), 
parent21[11] (1,stt21[1] (r) *1:nn2)); 


s 最 长 行 不 用 插入 空格 
end 


if gaplen2 (1)>0 


child2{11} (1, :)=strcat (parent2{11} (E, :sttzlI TTE) 9. 
gap(l:gaplen2(1)),parentlíiij(i,sttlíij(r)-*1:nnl)): 


else 


child2[11] (1,:)-2strcat (parent2(11] (1,1:stt2(11 (r)), 
parentlíiij](i,sttlíi])(r)-t*1:nnl)): 


$s 最 长 行 不 用 插入 空格 
end 
end 


gs 同一 列 都 古 空格 的 ， 删 除 此 列 
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cnnl (11)=length (childl{11}): 
cnn2(11)=length (child21{11}): 


ckl=0; ck2=0; 
for j-1:ocnnl (ii) 
CCL-TIiDd[Chrbdhlirri](1:. 1) — "Js 
if length(ccl)--NUM SEQ gs 如 果 此 列 不 全 是 空格 
Ckl-ckl-4l:; 
chlfii)(:,ckl)-child1(ii)(:,j): $ 将 此 列 赋值 给 ch1 
end 


end 


for j-1:cnn2 (11) 
COZ- CIGLENA ALL ia "3 
1f length(cc2)--NUM SEQ 
Ck2-—ck2-41; 
chA T3 1T TS, EEC TERT (sr i): 
end 


end 


STR ds 3 JE (ELI FERI A A TE JT X 
pscorel-0; 
pscore2-0; 
cscorel-0; 
CScore2-0; 
ppscorel(í(ii)-fitness affinedsp spss tcs(parentlíiij], 
mseq); 


ZO 


E 进化 算法 在 生物 多 序列 比 对 中 的 应 用 e 


ppscore2(i1i)-fitness affinedsp spss tcs(parent2[11], 


mseq); 
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cCSCOFrGli(r1)—r1bne55 arrinecdsp sSpss ECSICHIT]IIJ,,mseg)s 


ccscore2(ii)-fitness affinedsp spss tcs(ch21[iij,mseq): 


将 父 12 MF 12 JE Áo HET. BOGENBEIBPIATEAT 12 
a(ii,:)-^[ppscorel(ii),ppscore2(1i11),ccscorel (ii), 
ccscore2(11)l:; 
bí(1i1,:)^sort(a(11,:)); 
cl-findstr(a(ii,:),b(ii,4)); $$ 适应 度 第 一 名 
c2=findstr (a (ii, :),b(ii,3)); % 适 应 度 第 二 名 
if c1(1)-- gs 有 时 会 出 现 两 个 一 样 的 最 大 什 ， 则 返回 第 一 位 元 系 
newcrossl{ii}=parentl{ii}; S43 1 IRAT 1 
elseif cl (1)==2 
newcrossl{ii}=parent2{ii}; sg 将 父 2 IRAT 1 
elseif cl(1)-- 
newcrossl[(ii])-chl[ii); gs 将 子 1T 
elseif cl(l)-—- 
newcrossl[(ii)-ch2[ii); gs 将 子 2 WAT 1 
end 
if c2(1)==1 
newcross2{ii}=parent1{ii};  $% 将 父 1 IRAT 2 
elseif c2(1)-—2 
newcrossz{11}=parent2{11}:; SHIL 2 IRAT 2 
elseif c2 (1)== 
newcross2{ii}=chl{ii}; VAT 1 巍 给 子 2 
elseif c2(1)-- 
newcross2(ii)-ch2[ii); gs 将 子 2! T2 


end 
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end 


SER Si dl 10927 / FIDEER AT S 
new00-newl (y2); 
for i1-1:NUM remain indi 
if i«-num cross 
new se críij-newcrosslíi]; 
elseif i»-num cross*l&&i«-2*num cross 
new se críij-newcrossZ[i-num cross]; 
else 
new se crí[ij-new001[i-2*num cross]; 
end 
end 


newpop-new se cr; 


[Hoe G 变异 算 子 mutation 


o e E mL 
S pex Ap e 


function 

newpop-struct newaftmutation(oldpop,mutation rate,mseq) 
new mu-oldpop: 
STET 
smnew mu-initpop;: 
$mutation rate-0.1; $A4b ES 
s[sm,sn]-size(new se cr); 


[nsm,nsn|-size(new mu{1}); 
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NUM SEQ-nsm; 
NUM remain indi-numel (new mu); e pH NERA H 
mr—-rand(1,NUM remain indi): 
myl-find(mr«-mutation rate); 
从 种 群 中 随机 挑选 变 弄 的 个 体 ， 确 定 其 所 在 的 位 置 
my2=tind(mr>mutation rate); 
mnew00=new mu (my2); Sk AE FE HA M 
muparent-cell(l,length (myl)): 
for mi-1:length (my1) 

muparentí(mi]-new mu(ímyl (mi) }; 挑选 参与 变异 的 父 代 
end 


inpop-muparent; 


for 1-1:numel Í(inpop) 


mu r-unidrnd(NUM SEQ,1,1); 当 随 机 选 一 行 


init-inpopíij (mu r,find(inpopí[ij(mu r,:)--' ')):; 
RIER 
ingap=inpop{1} (mu r,find(inpopí[ij (mu r,:)--' ')): 
空格 

seq-fíind(inpopíij(mu r,:)--' '); 9k dE AT INL EL 
gap-find(inpopíij(mu r,:)--' '); SE. YR 


oP 


if length (gap)~=0 
rs=unidrnd (length (seq),1,1); 
rg=unidrnd (length (gap), 1,1); 
if rs>=l&rs<=length (seq) 
randseq=seq (rs); % 随 机 选择 一 个 非 空格 CET) 位置 
else 
randseq-seq(1); 
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end 

if rg»-l&rgc«-length (gap) 
randgap-gap(rg): sg 随机 选择 一 个 空格 位 首 

else 

randgap-^gap (1): 

end 
seq(find(seq--randseq))-randgap: 
SERRE IT "PEE EU CHER FIR 
seq-sort (seq); g HEFE 

gap (find (gap==randgap) )=randseq; 
SPEE FE HJ JE AURI E. ER CUR IZ B 


gap-sort (gap) ; SHE 
inpopíi] (mu r,gap)-ingap: % 将 空格 读 入 
inpopíi)(mu r,seq)-init; SERE BEA 
end 
s 同 一 列 都 是 空格 的 ， 删 除 此 列 
k=0; 


for j-1:lenqgth(í(inpopíi]l) 

CGI-rTIindirinpopiljit.])——" "4s 
if length(cl)--NUM SEQ $% 如 果 此 列 不 全 是 空格 

k=k+1; 

muchild[(i)(:,k)-inpopí(i)(:,3j); sg 将 此 列 赋值 给 muchilad 
end 


end 


计算 变异 子 代 与 父 代 的 适应 度 值 ， 挑 选 优 的 作为 下 一 代 
ppmscore(i)-fitness atftinedsp spss tcs (muparent[íij, 
mseq);: 
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ccmscore(i)-fitness affinedsp spss tcs (muchildlíij, 
mseq); 

if ppmscore (i)»-cocmscore (i) 

newmu {i }=muparent{i}; 

else 

newmu {i }=muchild{i}; 


end 


end 


gs 除 复制 10$ 之 外 的 所 有 个 体 

for 1-1:NUM remain indi 

if i«-length (my1) 

newpop21[ij]-newmuli]; 

elseif i»-length(myl)-41l&&i«-length (my1)+length (my2) 
newpop? {1 }=~mnew00{i1-length (my1) }:; 

end 

end 


newpop-newpop2; 


MH. WEER: SP BRA 


ssum of pair 值 ， 即 测试 序列 中 每 一 列 残 基 在 参考 序列 中 两 两 匹配 的 分 数 
function sopi-SOP(testseq,msfseq) 

ms-msfseq; $% 人 参考 比 对 ,空位 用 -表示 ， 残 基 是 大 与 字母 

as-testseq; gs 测试 比 对 ， 衬 位 用 -表示 ， 残 基 是 大 写字 母 


o 附录 ”相关 的 源 代码 i 


[am,an|=size (as):; 
[mm,mn|=size (ms): 
c-cellíam,an); 


a-cell(í(am,an); 


for 1=1:an 
for j-1:am 
LE Ll] ^ 
cíj,i]-findstr(as(j,i),ms(j,:)): 
si VA Y 99 SEE AST YU P IR, F8] 1TH IR] E RI DIEI 
aíj,il]j-findstr(as(í(j,i),as(j,:)): 
g 测 试 序 列 残 基 在 目 身 的 位 置 
end 
end 
end 


Cox: 


$14 RR Lc RWUY , TESTA FUSE AETE 22 75 FF PEZ ELE OC, MEAE PEN 


cc (am,an) 


for j-1:am 

for i-1:an 

if length(aíj,i1])--0 

for kl-1:lengthí(aíj,1i]) 

ccijí;atj,; ij (kl)j-7clj,alj, ij) (length (alj5 17) ) F (kl); 
end 

end 


end 
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end 


$ UI AR ALPE ERIT 755 PUR) X EE IH] 7), 则 cc (3) =cc (k), p=p+1 

p-0; 

for i-1:an 

for jJ-l:am-1 

for k-j-*1:am 

if length(ccíj,1])--0 

il eci il- celk) 
p=p+1; 

end 

end 

end 

end 


end 


SOpi-p: 


MEI nm pou A T HD ROT 


Mafft HJJI Ab BEREIT: 

t! /usr/bin/perl 

my $mafft = "D:/4&0)/D/workl/msa/test3/mafft.bat"; 
smafft 的 安装 路 径 


Files <+ tias: 


foreach Sfile(Gfiles)( 


o 附录 “相关 的 源 代码 M 


open F, $file or die $!; 
my$aln-$file;  g 需 要 输入 的 序列 文件 ， 多 个 序列 必须 在 一 个 文件 中 
$file =~s/\.\wt//g; SAHI REZ 
for (my $j = 1 ; $j <= 20; $j = $j + 1){ 
$jm=$j*0.1+0.01; 
for (my $k = 0; $k «$j/2-0.01; $k = $k + 0.2) { 
my Ş$km=$k+0.1; 
my $out="$file\ $jm\ $km. fasta"; 
my $system check=system("Smafft --op $j --ep $k --bl 30 
Saln»Sout"); 
j 
j 
} 


2 Clustalw 的 批 处 理 程序 : 
#!/usr/bin/perl 
my $clustalw = "D:/ 和 备份 /D/workl1/msa/balibase3 数据 库 /cw/ 
ClustalW2"; 
$clustalw H]z ERE 
afiles-«*.india»; 
foreach Sfile(Gfiles)( 
open F; $file or die $!; 
my $aln-$file; $g 需 要 输入 的 序列 文件 ， 多 个 序列 必须 在 一 个 文件 中 
Sfile =~s/\.\wt//g; £I Eo 
my S$out-"Sfile.fasta"; 
imy Sout-"Sfile"; 
my $system check-system("$clustalw -OUTORDER-INPUT 
-OUTPUT-FASTA -INFILE-S$aln -OUTFILE-S$out"); 
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$6 实现 比 对 , 具体 参数 设置 可 参考 clustalw 的 帮助 文件 中 的 help 9 


MH J HMM 和 QPSO 站 法 用 于 
多 厅 列 比 对 的 程序 


function [fgbest,seq,T|]=bqpsoxin (MAXITER) 
Cie 
sequence-fastaread('kinase refl.india'); 
lengthdata-length (sequence); 
a-zeros (1,lengthdata); 
for 1i-1:1lengthdata 
a(l,i)-length(sequence(i).Sequence); 

end 
lengthmax-max (a); 
popsizelength- ceil(lengthmax + 0.2*lengthmax * rand); 
popsize-50; 
f gbest-0; 
f x-zeros(l,popsize); 
f pbest-zeros(l,popsize); 
for i-1:popsize 
partical(i).x-ones(lengthdata,popsizelength); 
partical(i).seq-setstr (zeros (lengthdata,popsizelength)); 
for 
j"1:lengthdatagap-randint (1, (popsizelength-length 
(sequence (J) . Sequence) ), [0, Length (sequence (J) . Sequence) |); 
gap-sort (gap); 
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partical(i).x(j,(1:length(gap)) + gap)^0; 
partical(í(i).seq(j,(l1:length(gap)) + gap)=". 
partical(í(i).seq(j,find(partical(í(i).seq(j,:)--'.'))^s 
equence (J) . Sequence; 
end 
partical(i).pbest-partical(i).x; 
f x(i1)-SPSXIN2 (partical (1) .seq); 
f pbest(i)-f x(1)s 
end 
[t gbest,g]-max(ft pbest); 
gbest-partical(g).pbest; 
for t-1:MAXITER 
Sbeta-0./; 
beta-(1-0.5) * (MAXITER-t) /MAXITER+0 .5; 
mbest-ones(lengthdata,popsizelength); 
ave-zeros(lenqgthdata,popsizelength); 
for i-1:popsize 
ave-avetpartical.(i).pbest; 
end 
ave-ave./popsize; 
for il-1:lengthdata 
mbestí(il,find(ave(il,:)»50.5))-»1; 
mbestí(il,find(ave(il,:)«0.5))-^0; 
kl-find(ave(il,:)-^-0.5); 
for 12-1:length(kl) 
if rand»0.5 
mbest (11, kl (12))=1; 
else 


mbest (11,k1(12))7^0; 
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end 
end 
end 
for i-1:popsize 
partical(i).c-zeros(lengthdata,popsizelength); 
for d-1:lenqgthdata 
partical(i).c(d,:)-^ones(l,popsizelength); 
A-rand(1l1,popsizelength); 
partical(i).p(d,:)-^A.*partical(í(i).pbest(d,:)- 
(1-A).*gbest (d, :); 
partical(i).p(d,find(partical.(i).p(d,:)-^-20))20; 
partical(i).p(d,find(partical.(i).p(d,:)-^-1))-71; 
l1-find(partical (1) .p(d,:)--0 & partical (1) . p(d, :) 
"IS 
for r-1:length(íll) 
if rand»0.5 
partical(i).p(d,ll(r))^1; 
else 
partical(i).p(d,ll(r))^0; 
end 
end 
if(rand«0.5) 
cpoint-round(rand*popsizelength); 
zl-[partical(1i).pbest(d,l:cpoint),gbest (d,cpoint 
*l:popsizelength)]|; 
z2-[gbest(d,1l:cpoint),partical(i).pbest(d,cpoint 
*l:popsizelength)]|; 
if rand«0.5 
partical(i).p(d,:)^zl; 
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else 
partical(i).p(d,:)^z2; 
end 
partical (1).c(d,:)^-^partical (1) .x (d, :) -mbest (d, :); 
u=-log (rand); 
u2-find(partical(i).c(d,:)--20); 
b-round (beta* length (u2)-*u); 
if b/popsizelength»1 
Dr-1; 
else 
pr-b/popsizelength; 
end 
for n-l:popsizelength 
if rand<pr 
if partical(1i).p(d,n)--1 
partical(i).p(d,n)-^0; 


else 
partical(i).p(d,n)-^1; 

end 

end 

end 
parLtacalti).xid,:)-partical (1) .pid, 2): 
wl-find(partical (i).x(d,:)-^-20); 
vl-find(partical(i).x(d,:)--1); 

if 


length (w1)»(popsizelength-length(sequence (d).Seq 
uence)) 
numl-length (w1)-(popsizelength-length(sequence (d 


). Sequence) ); 
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num-randperm(length(w1)); 
particalí(i).x(d,wl(num(l1:numl)))-^71; 

end 

if length(wl)«(popsizelength-length (sequence (d). 

Sequence) ) 
numl= (popsizelength-length (sequence (d) .Sequence)) 
-length (wl); 
num=randperm (length (v1)); 
particalí(i).x(d,vl(num(1:numl)))^0; 

end 
w2—-find(partical (i).x(d,:)-^-0); 
v2—-find(partical(i).x(d,:)-^-1); 
partical(í(i).seq(d,w2)-2'.'; 
partical(i).seq(d,v2)-^sequence (d) .Sequence; 

end 

sf x(i)-sps (partical (i).seq) /ref1(); 
f x(i)-SPSXIN2 (partical(i).seq); 

itf f pbest(i)«ft x(1i) 
f pbest(i)-ft x(i);*t pbest (i) 
partical(íi).pbest-partical(i).x;$partical(i).pbest 


end 

end 
[f gbest,g]-max(f pbest); 
gbest-partical(g).pbest; 
fgbest(t)-f gbest; 

end 


for r-1:lenqthdata 
w3-find (qgbest (r, :)==0); 
v3-find (gbest (r, :)==1)}); 
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seq(r,w3)-'.'; 
seqí(r,v3)-sequence (r).Sequence; 
end 


T—toc; 


附录 “相关 的 源 代码 i 


2/1 


